DE2919085C2 - Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung - Google Patents
Vorverarbeitungsverfahren und -vorrichtung für eine SpracherkennungsvorrichtungInfo
- Publication number
- DE2919085C2 DE2919085C2 DE2919085A DE2919085A DE2919085C2 DE 2919085 C2 DE2919085 C2 DE 2919085C2 DE 2919085 A DE2919085 A DE 2919085A DE 2919085 A DE2919085 A DE 2919085A DE 2919085 C2 DE2919085 C2 DE 2919085C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- inverse
- signal
- spectrum
- inverse filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
(1) das Sprachsignal aus der Eingangsstufe wird einer Fourier-Transformation zur Gewinnung
eines Frequenzspektrums unterworfen;
(2) aus dem im ersten Verfahrensschritt gewonnenen Fre«5i<nzspektrum werden nur die Komponente
innerhalb des Übertragungsbandes und
die aufgrund der Abtastung entstandene gefaltete Komponente entnommen, und dieser
entnommene Spektralteil wird zu einem kontinuierlichen Frequenzband, beginnend bei 0 Hz,
umgeordnet;
(3) ein Signal, das dem im zweiten Verfahrensschritt entnommenen Spektralteil entspricht,
wird einer inversen Fourier-Transformation unterworfen;
(4) das im iLitten Verfahrensschritt erhaltene
Signal wird zur Gewinnung ^ines vorgegebenen charakteristischen Parameters analysiert; und
(5) ein charakteristischer Wer« der zu dem im
vierten Verfahrensschritt gewonnenen charakteristischen Parameter invers ist, wird in das
Inversfilter eingegeben, und das empfangene Sprachsignal wird zur Gewinnung des Eingangs-Sprachsignals
für die Erkennungsstufe durch das Inversfilter geleitet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das von der Eingangsstufe empfangene
Sprachsignal in ein digitales Signal unter Verwendung einer Abtastfrequenz umgesetzt wird, die im
wesentlichen das 2"+'-fache (n = positive ganze
Zahl) der Übertragungsbandbreite des Übertragungssystems beträgt.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als charakteristischer Parameter
ein partieller Autokorrelationskoeffizient verwendet wird.
4. Vorverarbeitungseinrichtung für eine Spracherkennungsvorrichtung,
die eine Eingangsstufe (2, 3) zum Empfang eines über ein Übertragungssystem (1)
mit einem vorgegebenen Überfagungsband übertragenen Sprachsignals, eine Analysierstufe (4) zur
Analyse des von der Eingangsstufe (2, 3) abgegebenen Signals zur Gewinnung eines speziellen
charakteristischen Parameter sowie ein Inversfilter
(5) umfaßt, dem ein charakteristischer Wert, der gegenüber dem von der Analysierstufe (4) gewonnenen
charakteristischen Parameter invers ist, zugeführt ist und welches das Sprachsignal von der
Eingangsstufe (2, 3) hindurchläßt, um das hindurchgelassene Sprachsignal zu erkennen, gekennzeichnec
durch
eine erste Umwandlungsstufe (7), die das Sprachsignal aus der Eingangsstufe (2, 3) einer Fourier-
Transformation zur Gewinnung eines Frequenzspektrums unterwirft;
eine Auswahlstufe (8), die aus dem von der ersten Umwandlungsstufe (7) gewonnenen Frequenzspektrum
nur die Komponente innerhalb des Übertragungsbandes und die aufgrund der Abtastung
gefaltete Komponente entnimmt und diesen entnommenen Spektralteil zu einem kontinuierlichen
Frequenzband, beginnend bei 0 Hz, umordnet; sowie eine zweite Umwandlungsstufe (9), die den entnommenen
Spektralanteil einer inversen Fourier-Transformation unterwirft und das sich ergebende Signal
der Analysierstufe (4) zuführt.
5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Eingangsstufe ein Filter (2) für eine
Tiefpaßfilterung des Sprachsignals aus dem Übertragungssystem (1) und einen Analog-Digitalwandler
(3), der das Ausgangssignal des Filters (2) abtastet und in ein digitales Signal umwandelt aufweist
6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet daß die Anaiysierstufe (4) eine
Einrichtung (18) zur Analyse des Ausgangssignals der zweiten Umwandlungsstufe (9) und Berechnung
eines partiellen Autokorrelationskoeffizienten umfaßt
Die Erfindung bezieht sich auf ein Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung nach
dem Oberbegriff des Patentanspruchs 1 und auf eine Vorverarbeitungsvorrichtung nach dem Oberbegriff des
Die Erfindung ist insbesondere anwendbar bei der Erkennung von Sprache, die über ein Telefonnetz
übertragen wird. Bei einem Informationsdienst-System, welches ein ein Computersystem enthallendes Informationszentrum
mit einem Telefonnetz verbindet, wird die Sprache einer Tonantworteinheit (audio response unit,
-.5 ARU) als das Ausgangssignal des Informationszentrums
verwendet, während ein Tastschaltersignal oder direkt eine Stimme eines Sprechers als Eingabe auf das
Telefonnetz verwendet v.ird. PKr durch den Sprecher
eingegebene Sprache wird über das Telefonnetz an das Informatior.^zsntrum übertragen. Im Informationszentriim
wird eine Spracherkennung durchgeführt, indem
die Ähnlichkeiten zwischen der eingegebenen Sprache und einem Standard-Sprachsignal untersucht werden.
Die eingegebene Sprache, die auf diese Weise das Netz durchlaufen hat, ist unter dem Einfluß der
Übertragungscharakteristik des Übertragungssystems verzerrt. Darüber hinaus ist die Verzerrungscharakteristik
nicht gleichförmig, sondern hängt gewöhnlich vom Leitweg ab. Dementsprechend werden in der Spracher-
bo kennungsvorrichtung Sprachen verglichen, die über
Schaltkreise mit unterschiedlichen Verzerrungscharakteristiken ankommen. Es ist daher notwendig, den
Einfluß der Verzerrung zu beseitigen oder durch Normierung etc. zu vermindern.
Ein Verfahren nach dem Stand der Technik, das anhand der Fig. 1 und 2 weiter unten noch näher
erläutert wird, besteht darin, daß ein bestimmter Ausschnitt der eingegebenen Sprache analysiert wird,
um eine Spektralinfonnation in diesem Abschnitt
herauszuziehen, daß ein Inversfdter, welches eine zum
Spektrum umgekehrte Charakteristik hat, aufgebaut wird, und daß die eingegebene Sprache durch das
Inversfilter geführt wird, um den Einfluß der Übertragungscharakteristik
auf die eingegebene Sprache zu beseitigen. Bei diesem früheren Verfahren wird jedoch
das Inversfilter sehr astabil und folgt in nur geringem Maße der Charakteristik innerhalb eines Sprachübertragungsbandes.
Ein weiterer Nachteil besteht darin, daß es auf Störungen außerhalb des Sprachübertragungsbandes
anfällig ist.
Aufgabe der Erfindung ist es, ein Vorbearbeitungsverfahren
und eine Vorbearbeitungsvorrichtung für eine Spracherkennungsvorrichtung zu schaffen, bei welcher
die Stabilität eines Inversfilters verbessert, ein Qualitätsveriust
der Sprachinformation innerhalb eines Übertragungsbandes verhindert und der Einfluß von
Störsignalen außerhalb des Übertragungsbandes beseitigt ist
Die erfindungsgemäße Lösung dieser Aufgabe ist im Kennzeichnungsteil des Patentanspruchs 1 bzw. des
Patentanspruchs 4 angegeben. Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen
gekennzeichnet
Eine Ausführungsform der Erfindung wird im folgenden in Verbindung mit der beigefügten Zeichnung
beschrieben. Auf dieser ist bzw. sind
F i g. 1 ein Blockschaltbild einer bekannten Spracherkennungsvorrichtung,
Fig. 2(a) bis 2(g) Kurven, die Spektren und Charakteristiken, verschiedener Teile aus F i g. 1 zeigen,
Fig.3 ein Blockschaltbild einer Ausführungsform einer Spracherkennungsvorrichtung, welche ein Vorverarbeitungsverfahren
gemäß der Erfindung verwirklicht,
F i g. 4(a) bis 4(c) Kurven, die Spektren und Charakteristiken
von Teilen aus F i g. 3 zeigen,
F i g. 5 ein Blockschaltbild, welches ein Beispiel eines konkreten Aufbaus des Teils in Fig.3 zeigt, der die
Vorverarbeitungsvorrichtung darstellt,
Fig.6 ein Blockschaltbild, welches ein Beispiel für
den konkreten Aufbau eines Teils in F i g. 5 zeigt, und
F i g. 7 und 8 Blockschaltbilder, von denen jedes ein Beispiel für den konkreten Aufbau einer Erkennungseinheit in F i g. 3 darstellt.
F i g. 1 zeigt den Aufbau einer Spracherkennungsvorrichtung zur Realisierung eines bekannten Vorverarbeitungsverfahrens,
während d>e F i g. 2(a) bis 2(g) spektrale und Übertragungscharakteristiken von verschiedenen
Teilen aus F i g. 1 zeigen.
Gemäß F i g. 1 durchläuft Sprache Sp eine Telefonleitung 1 mit einer bestimmten Übertragungscharakteristik,
danach ein Tiefpaßfilter 2 zur Verhinderung von auf ein Abtasten zurückgehenden gefalteten Störsignalen.
Sie wird mit einer bestimmten Frequenz abgetastet und durch einen Analog-Digitalwandler (im folgenden als
»AD-Wandler« abgekürzt) 3 in digitales Signal umgewandelt. Ein Charakteristikparameter innerhalb bestimmter
Grenzen bzw. eines bestimmten Abschnitts wird aus der digitalisierten Sprache in einer Analysiereinheit
4 gewonnen und auf ein Inversfilter 5 gegeben. Indem man die eingegebene Sprache durch das
Inversfilter 5 schickt, wird Sprache mit darin beseitigten durch die Charakteristik der Telefonleitung 1 bedingten
Unstimmigkeiten auf die Erkennungseinheit 6 gegeben.
In der Erkennungseinneit 6 geschieht die Spracherkennung durch Vergleich der so gewonnenen Sprache mit
einer Standardsprache und Auswertung der Ähnlichkeiten zwischen diesen.
F i g. 2(a) zeigt schematisch das mittlere Spektrum der Sprache, bevor sie durch die Telefonleitung 1 geschickt
wird, während F i g. 2(b) die Übertragungscharakteristik
der Telefonleitung 1 wiedergibt Wie aus Fig.2(b) ersichtlich, hat die Übertragungscharakteristik der
Telefonleitung 1 eine Bandbreite von 0,3 kHz bis 3,4 kHz. Daher zeigt das mittlere Spektrum der Sprache
ίο nach dem Durchlaufen der Telefonleitung 1 eine
Bandbegrenzung mit abruptem Verlauf, wie in F i g. 2(c) dargestellt, wobei Störsignale außerhalb des Bandes
enthalten sind.
, Wenn für das Tiefpaßfilter 2 zur Verhinderung gefalteter Störsignale infolge des Abtastens eine sehr abrupte Abschneidcharakteristik gewählt wird, kommt es zu einer Beeinträchtigung nachfolgender Verarbeitungsschritte. Aus diesem Grund wird üblicherweise ein Filter Korwendet, welches, wie in F i g. 2(d) gezeigt, bei einer Frequenz zu dämpfen begir/· -a, die etwas unter den 3,4 kHz Hegt, die die Obergrenze ar s Telefonübertragungsbandes darstellen, und die Abschneidfrequenz fc bei 4 bis 5 kHz (beispielsweise 42 kHz) hat Durch ein solches Tiefpaßfilter 2 werden Störkomponenten bei und oberhalb der Abschneidfrequenz /c weitgehend entfernt Es geht jedoch auch Information im Sprachband, welche nicht höher als 3,4 kHz ist, in gewissem Maße verloren, was zu dem Problem führt, daß ein Qualitätsverlust der Information auf triti.
, Wenn für das Tiefpaßfilter 2 zur Verhinderung gefalteter Störsignale infolge des Abtastens eine sehr abrupte Abschneidcharakteristik gewählt wird, kommt es zu einer Beeinträchtigung nachfolgender Verarbeitungsschritte. Aus diesem Grund wird üblicherweise ein Filter Korwendet, welches, wie in F i g. 2(d) gezeigt, bei einer Frequenz zu dämpfen begir/· -a, die etwas unter den 3,4 kHz Hegt, die die Obergrenze ar s Telefonübertragungsbandes darstellen, und die Abschneidfrequenz fc bei 4 bis 5 kHz (beispielsweise 42 kHz) hat Durch ein solches Tiefpaßfilter 2 werden Störkomponenten bei und oberhalb der Abschneidfrequenz /c weitgehend entfernt Es geht jedoch auch Information im Sprachband, welche nicht höher als 3,4 kHz ist, in gewissem Maße verloren, was zu dem Problem führt, daß ein Qualitätsverlust der Information auf triti.
Im AD-Wandler 3 geschieht das Abtasten üblicherweise
bei einer Abtastfrequenz von 8 bis 10 kHz. Daher hat, wie in F i g. 2(e) gezeigt, das mittlere Leistungsspektrum
des mit dem AD-Wandler 3 gewonnenen digitalen Signals Liniensymmetrie mit der Mitte bei einer
Frequenz f„ die gleich der halben Abtastfrequenz ist,
und erstreckt sich bis zur Abtastfrequenz. Diese Ausgabe des AD-Wandlers 3 wird in der Analysiereinheit
4 einer Spektralanalyse unterworfen unJ die zum analysierten Spektrum inverse Charakteristik im Inversfilter
5 eingestellt Damit nimmt die Durchlaßcharaktevistik
des Inversfilters 5 die in Fig.2(f) gezeigte Form an.
In einem Fall, wo auf diese Weise Sprache mit dem in F i g. 2(e) gezeigten Spektrums durch die Analysiereinheit
4 analysiert und die Charakteristik des Inversfilters 5 entsprechend dem Ergebnis eingestellt wird, fällt das
in Fig.2(e) gezeigte Spektrum an der Ober- und Untergrenze des Bandes der Telefonleitung abrupt ab,
und diese abrupten Verläufe sind in dem durch die
>(i Analysiereinheif 4 zu analysierenden Band enthalten,
d. h., innerhalb Frequenzen 0 — fs. Infolgedessen besteht
bei dem Inversfilter, in welchem die zum Spektrum des At.aiysierergebnisses inverse Charakteristik eingestellt
ist, die Gefahr, daß es an Abschnitten, welche den
•33 abrupten Verlaufen des Obergrenz- und Untergreiizabschnitts
des Telefonübertragungsbands folgen, astabil wird. Ein weiteres Problem ist, daß auch die Verfolgung
der Charakteristik innerhalb des Telefonübertragungsbandes schlechter wird.
*o Obwohl, wie in Fig.2(g) dargestellt, bei dem
mittleren Sprachspektrum, das das Inversfilter durchlaufen hat, der Einfluß der Telefonleitung normiert ist
und das Spektrum innerhalb des Bands flach wird, enthält es auf gmße Werte verstärkte Störkomponen-
bä ten außerhalb des Bands. Dies liegt daran, daß ein
kleiner Teil des Spektrums der eingegebenen Sprache im Inversfilter umgekehrt betont wird.
Nun zu einer Ausführungsform der Erfindung.
Nun zu einer Ausführungsform der Erfindung.
Der Ausdruck »Spracherkennung« ist hier der allgemeine Ausdruck für die Erkennung. Messung etc.
von Sprachwellenform-Information, wie Worterkennung. Sprecherkennung und Sprecheridentifikation.
Fig. 3 zeigt eine Ausführungsform einer Spracher- =,
kennungsvorrichtung zur Verwirklichung eines Vorverarbeitungsverfahrens gemäß der Erfindung, während
die Fig.4(a) bis 4(c) Spektren und Charakteristika zur
Erläuterung von Wirkungsweisen von Teilen in Fig. 3 sind. in
In F i g. 3 bezeichnet 7 einen schnellen Fourier-Transformierer,
8 eine Bandbereiehsauswahlschaluing, und 9 einen schnellen inversen Fourier-Transformierer.
Wie in Fig. 4(a) dargestellt, ist die Abschneidfrequenz
fc des Tiefpaßfilters 2 ausreichend hoch dafür r,
eingestellt, daß Sprache, die nicht höher als die Obergrenze von 3.4 kHz des Telefonübertragungsbands
ist, nicht beeinträchtigt wird, und so, daß sie niedriger als die Frequenz fs ist, die gleich der Hälfte der
Abtastfrequenz ist. Dementsprechend muß die Frequenz f, höher als die die Obergrenze des Telefonübertragungsbandes
bildenden 3,4 kHz sein.
Bei einem solchen Aufbau durchläuft, über die Telefonleitung 1, die die in F i g. 2(b) gezeigte Charakteristik
aufweist, die Sprache SP das Tiefpaßfilter 2, das die in Fig.4(a) gezeigte Dämpfungscharakteristik
aufweist, bei welcher der Abfall bei einer über der Obergrenze des Telefonübertragungsbands liegenden
Frequenz beginnt und die Abschneidfrequenz fc ausreichend hoch ist, wonach sie auf den AD-Wandler 3 )o
gegeben wird. Dann wird sie mit der in obigo Weise festgesetzten Abtastfrequenz abgetastet und in ein
Digitalsignal bestimmter Bits umgewandelt.
Was die umgewandelte Ausgabe anbelangt, so wird die gesamte zu analysierende Sprache durch den
schnellen Fourier-Transformierer 7 kollektiv Fouriertransformiert. wobei sich eine SpektraicharakiL-ribiik
ergibt, wie sie in F i g. 4(b) gezeigt ist. In der Bandbereichsauswahlschaliung 8 wird/werden nur ein
Band, in welchem die Sprache vorliegt, d. h.. das -»υ
Telefonübertragungsband von 0.3 bis 3.4 kHz, und das Band der auf das Abtasten zurückgehenden gefalteten
Komponente aus dem in Fig.4(b) gezeigten Spektrum herausgegriffen. Man erhalt also ein Spektrum, in
welchem die Bänder von 0 Hz an neu angeordnet sind, -ι;
wie dies in F i g. 4(c) gezeigt ist.
Es ist dabei hinsichtlich des schnellen Fourier-Transformierers 7 zweckmäßig, daß er Sprachdaten von
Potenzen von »2« transformiert. Wenn daher die einzugebenden Sorachdaten nicht Potenzen von »2-<
sind, ist es günstig. »0« hinter den Daten einzusetzen und die gesamten Daten in Potenzen von »2« zu bringen. Es
ist ferner zweckmäßig, daß die Zahl von Daten des inversen Fourier-Transformierers 9 eine von Potenz^r
von »2« ist. Beispielsweise wird «ie aus Fig.4(c) ersichtlich, die äquivalente Abtastirequenz des ausgewählten
Spektrums bzw. 2 χ /,' 6.2 kHz, was das
Doppelte der Telefoniibertragungsbandbreite von
3,1 kHz(= 3,4 kHz-03 kHz) ist. Wenn daher 12.4 kHz,
was doppelt so hoch ist, zur Abtastfrenuenz 2 · /s des
Ad-Wandlers 3 gemacht wird, wird die Frequenz fs. die
gleich der Hälfte davon ist, 62 kHz. Dies erfüllt auch die Bedingung, daß die Frequenz fs höher als die
Obergrenze von 3,4 kHz des Telefonübertragungsbands ist Wenn die Zahl von Daten des Spektrums, die bis
hinauf zur Frequenz 2 · f/ repräsentieren, ein Wert
einer Potenz von »2« ist, wird dementsprechend auch die Zahl von Daten des Spektrums, die bis hinauf zur
Frequenz 2 · f, repräsentieren, nach der Beziehung 2 /", = 2 (2 A,') eine Potenz von »2« und dies ist günstig.
Üblicherweise ist der Abtastwert der Sprachwellenform mehrere 100 oder mehr. Indem man den Wert so
auswählt, dab er eine Potenz von »2« ist, werden daher 2/V und 2f, automatisch Potenzen von »2«.
In obigem Beispiel wurde 2/iauf das Doppelte von 2fs'
eingestellt, sie kann jedoch allgemein auf 2n-mal (n>2)
von 2U eingestellt werden. In diesem Fall wird jedoch
die Abtastfrequenz hoch und die notwendige Kapazität des Datenspeichers nimmt in diesem Maße zu. Wenn
man auch berücksichtigt, daß die Verarbeitungsmenge für den schnellen Fourier-Transformierer zunimmt, so
ist das Einstellen auf den doppelten Wert, der das erforderliche Minimum darstellt, wünschenswert. Das
heißt, wenn das Telefonübertragungsband von einer Frequenz f\ zu einer Frequenz /i reicht, ist es günstig, η
(η = 1, 2 ...>) so auszuwählen, daß die Beziehung (h — h) · Ϊ"*' h ■ 2 erfüllt isi, und das Abtasten bei
(h — f\) ■ 2"+ 'durchzuführen.
Wie aus einem Vergleich der Fig.4(c) und 4(b)
einsichtig, enthält das Frequenzspektrum (Fig.4(c)), welches auf den inversen Fourier-Ttansformierer 9
gegeben wird, überhaupt keine Komponente außerhalb des Sprachbarides. Daher sind die abrupten Charakteristiken
des Bandabschneidens und die Störungskomponenten außerhalb des Bandes in dem durch die
AnalysicTeinheit 4 zu analysierenden Band, d. h., in 0 —/",', nicht vorhanden. Infolgedessen sind die abrupten
Charakteristiken, welche Faktoren der Instabilität darstellen, für das Inversfilter 5 nicht erforderlich, so
daß sich ein [nversfilter realisieren läßt, welches stabil ist und der Übertragungscharakteristik innerhalb des
Bandes gut folgt. Gleichzeitig damit ist auch die Sprachinformation innerhalb des Bandes qualitativ nicht
verschlechtert und Störgeräusche außerhalb des Bandes können vollkommen entfernt werden.
Wie oben angegeben, kann die halbe Frequenz f, der
Abtastfrequenz auf einem hohen Wert, beispielsweise 6.2 kHz, eingestellt werden. Daher kann die Dämpfungscharakteristik
des Tiefpaßfilters 2 so eingestellt werden, daß sie bei einem über der Obergrenze von
3,4 kHz des Telefonübertragungsbandes liegenden Wert ansteigt, so daß die Sprachinformation innerhalb
des Bandes in diesem Teil nicht qualitätsverschlechtert wird.
Ferner wird die äquivalente Abtastfrequenz 2 · f/ der
auf das Inversfilter i.u g^b^-den umgewandelten
Wellenform 6,2 kHz, was ein sehr niedriger Wert verglichen ..-.it der Abtastfrequenz von 8 bis 10 kHz des
Standes der Technik ist. Daher sind die m der Analysier>;inheit 4, dem Inversfilter 5 und der Erkennungseinheit
6 zu verarbeitenden Mengen vermindert, wodurch die Verarbeitungsgeschwindigkeiten in diesem
Maße erhöht sind. Selbst wenn man in Rechnung stellt, daß die Verarbeitungsvorgänge im schnellen Fourier-Transformierer
7, der Bandbereichsauswahlschaltung 8 und dem inversen Fourier-Transformierer 9 zunehmen,
ergibt die Erfindung gegenüber dem Stand der Technik insgesamt eine Verbesserung.
F i g. 5 zeigt den Aufbau einer Ausführungsform des Vorverarbeitungsteils der Vorrichtung der Fig.3.
Dieser Teil entspricht dem schnellen Fourier-Transformierer 7, der Bandauswahlschaltung 8, dem inversen
Foürier-Transforniierer 9, der Analysiereinheit 4 und
dem Inversfilter 5 in F i g. 3.
In Fig.5 bezeichnen 11 bis 15 Register, 16 einen
Fourier-Transformierer, 17 einen inversen Fourier-
Transformierer, 18 eine Inversfilterkoeffizienten-Berechnungsschaltung,
19 ein Inversfilter und 20 ein Steuerglied.
Bei einem solchen Aufbau wird die digitale Sprachwellenform
aus dem AD-Wandler 3 der Fig.3 im Register 11 gespeichert. Die im Register 11 befindliche
Spr,/:hwel!enform wird an den Fourier-Transformierer
16 gesandt, dort werden Daten der Minimalzahl von Potenzen von »2«, die nicht kleiner als die Zahl von
Daten der Eingangs-Sprachwellenforrr. ist, Fouriertransformiert,
und das Ergbnis an das Register 12 gesandt. Dementsprechend wird die spektrale Information,
wie sie in Fig.4(b) gezeigt ist, im Register 12 gespeichert. Durch ein Steuersignal des Steuerglieds 20
wird das Spektrum des Telefonübertragungsbands von 0,3 bis 3,4 kHz und das Band der gefalteten Komponente
innerhalb des Registers 12 herausgeholt und das Spektrum in dem Zusisnd, in wslchsm die Bänder in d?r
in F i g. 4(c) gezeigten Weise zusammengedrängt sind, im Register 13 gespeichert. Nachfolgend werden im
inversen Fourier-Transformierer 17 inverse Fourier-Transformationen in einer Anzahl, die gleich der halben
Anzahl von im Fourier-Transformierer 16 durchgeführten Fourier-Transformationen ist, ausgeführt und die
Ergebnisse an das Register 14 gesandt. Auf ein Steuersignal der Steuereinheit 20 hin, werden durch
Schieben um feste Intervalle bestimmte Längen von Sprachdaten sequentiell aus dem Register 14 herausgeholt
und zur Bestimmung eines bestimmten Parameters, beispielsweise des partiellen Autokorrelationskoeffizienten,
einer Spektralanalyse unterworfen. Der Koeffizient wird an das Inversfilter 19 gesandt, um dessen
Charakteristik einzustellen. Ferner werden auf ein entsprechendes Steuersignal des Steuerglieds 20 hin die
im Register 14 befindlichen Sprachdaten sequentiell durch das Inversfilter 19 geschickt und einer inversen
Filterung unterworfen, deren Ergebnis im Register 15 gespeichert wird.
F i g. 6 zeigt ein Beispiel des konkreten Aufbaus eines Teils der Schaltung der F i g. 5, d. h. der Berechnungsschaltung 18 für den Inversfilterkoeffizienten und des
Inversfilters 19. In dem Beispiel wird der partielle Autokorrelationskoeffizient unter Ausnutzung der
PARCOR-Analysiertechnik, die bekannt ist (beschrieben beispielsweise in der japanischen Patentanmeldung
mit Publikationsnummer 18 007/74). berechnet und die Charakteristik des Inversfilters mit dem Koeffizienten
eingestellt.
In F i g. 6 bezeichnen 100 und 200 Eingangsanschlüsse,
101 bis 103 und 201 bis 203 Verzögerungsschaltungen,
111 und 112 Korrelatoren, 121, 122, 131, 132, 221, 231, und 232, Multiplizierer, 141 bis 149,151 bis 159, 241 bis
249 und 251 bis 259 Addierer, 160 ein Schieberegister
und 170 eine Mittelwertberechnungsschaltung.
Die Schaltung der F i g. 6 erhält die zu analysierende Sprache am Anschluß 100. Das ankommende Signal
wird in zwei Teile aufgespalten, von denen der eine auf die Verzögerungsschaltung 101 gegeben wird. Der
andere Signalteil wird nochmals in drei Teile aufgespalten, die an den Korrelator 111, den Multiplizierer 131
und den Addierer 151 gehen. Das durch die Verzögerungsschaltung 101 verzögerte Signal wird in drei Teile
aufgespalten, die an den Korrelator 111, den Multiplizierer
121 und den Addierer 141 gehen. Bei dem Korrelator 111 handelt es sich um eine bekannte Vorrichtung,
weiche die Funktion hat, die Korrelation zwischen den beiden Eingangssignalen zu berechnen. Das Ausgangssignal
dieser Vorrichtung wird als partieller Autokorrelationskoeffizient
erster Ordnung 181 (PARCO-Koeffizient) vorgesehen und außerdem als das eine Eingangssignal
sowohl für den Multiplizierer 121 als auch für den Multiplizierer 131 verwendet.
Der partielle Autokorrelationskoeffizient 181 wird im Schieberegister 160 gespeichert. Die Ausgangssignale
der Multiplizierer 121 und 131 sind Vorwärts- und Rückwärts-Voraussagewerte erster Ordnung. Diese
werden auf den Addierer 151 bzw. 141 gegeben, um ihre
ίο Differenzen bezüglich des Eingangssignals am Eingangsanschluß
100 und des Ausgangssignals der Verzögerungsschaltung 101 zn gewinnen. Als Ergebnis
erhält man Vorwärts- und Rückwärtsvoraussagesignaldifferenzen erster Ordnung, die Eingangssignale des
Korrelators 112 und der Verzögerungsschaltung 102 werden. Danach werden in der gleichen Weise partielle
Autokorrelationskoeffizienten 182 bis 189 der zweiten bis neunten Ordnung und ein Vorwärtsvoraussagefehler
neunter Ordnung analysiert und herausgezogen. Da die Sprachdaten in Abtastintervallen aufeinanderfolgend
auf den Anschluß 100 gelangen, werden die partiellen Autokorrelationskoeffizienten 181 bis 189 zu jedem
Zeitpunkt berechnet und im Schieberegister 160 gespeichert. Wenn die Zeitdauer des Registerschicbens
des Schieberegisters 160 vorweg gleich dem Abtastintervall gemacht wird, sind die partiellen Autokorrelationskoeffizienten
der gesamten Sprache im Schieberegister 160 an den entsprechenden Ordnungen im Zeitpunkt
der Beendigung der gesamten Sprache gespeichert. Die Mittelwertberechnungsschaltung 170 bildet die Mittel
der partiellen Autokorrelationskoeffizienten der entsprechenden Ordnungen nach Beendigung der Analyse
der gesamten Sprache. Die Mittelwerte werden im Inversfilter als die partiellen Autokorrelationskoeffizienten
der einzelnen Ordnungen eingestellt und beibehalten, während der Inversfilterungsvorgang
durchgeführt wird.
Das Inversfilter hat den gleichen Aufbau wie dasjenige eines Spektrumanalysierteils, d. h., des PAR-COR-Analysierfilters
in der Inversfilterkoeffizienteii-Berechnungsschaltung,
und unterscheidet sich nur darin, daß die im Spektrumanalysierteil berechneten partiellen
Autokorrelationskoeffizienten vorweg eingestellt werden. Es wird zu einem Filter, welches die inverse
Charakteristik zum gesamten Mittelrngsspektrum der analysierten Sprache hat. Im Register 14 vorhandene
Sprachdaten, wie sie über den Eingangsanschluß 200 erhalten werden, werden durch obiges Inversfilter
gefiltert.
F i g. 7 zeigt ein Beispiel für den konkreten Aufbau der Erkennungseinheit 6 der Fig.3. 15 bezeichnet ein
Register, das demjenigen mit dem gleichen Bezugszeichen in F i g. 5 entspricht, 21 ein Pufferregister, 22 eine
Parameterextrahierschaltung, 23 ein Parameterregister, 24 einen Standardparameterspeicher, 25 eine Abstandsberechnungsschaltung,
26 ein Abstandsregister, 27 eine Minimalwertberechnungsschakung, und 28 eine Steuereinheit.
Bei einem solchen Aufbau werden die Sprachdaten nach Durchlaufen des Inversfilters im Register 15 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden feste Längen von Sprachdaten sequentiell in festen Abständen herausgeholt und über das Pufferregister 21 auf die Parameterextrahierschaltung 22 gegeben.
Bei einem solchen Aufbau werden die Sprachdaten nach Durchlaufen des Inversfilters im Register 15 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden feste Längen von Sprachdaten sequentiell in festen Abständen herausgeholt und über das Pufferregister 21 auf die Parameterextrahierschaltung 22 gegeben.
Diese Parameterextrahierschaltung 22 zieht einen für die Erkennung notwendigen Parameter heraus. Beispielsweise
kann eine Analysiereinheit, wie sie in der vorgenannten japanischen Patentanmeldung, Publika-
Σ -V, -.V1,
Po Pi Pip- ι
P] Pn Pw+ 2
PlP- ι Po
A1 = 2ja-,iff, +, .
ti 9
SS tionsnummer 18 007/74 beschrieben wurde, verwendet
werden, wobei der partielle Autokorrelationskoeffizient als Parameter herausgezogen wird. Er wird auf das p, =
Parameterregister 23 gegeben.
Andererseits werden vorher berechnete und regi- > strierte Parametersätze (im Falle der Worterkennung
Parameterzei'fclgen entsprechender Wörter und im Falle der .Sprechererkennung Parameterzeitfolgen
entsprechender Sprecher) im Standardparameterspeicher 24 gespeichert. Auf ein Steuersignal der Steuereinheit
28 hin werden die gespeicherten Inhalte aufeinanderfolgend herausgeholt und auf die Abstandsberechnungsschaltung
25 gegeben. In der Abstandsberechnungsschaltung 25 werden die vom Parameterregister
23 gelieferten Charakteristikparameter und die vom Standardparameterspeicher 24 gelieferten Standardparameter
miteinander verglichen und die Ähnlichkeit zwischen ihnen, d. h. der Abstand, berechnet. Das
Resultat wird an das Abstandsregister 26 gesandt. Als Abstandsberechnungsschaltung 25 kann beispielsweise
eine in der japanischen Patentanmeldung, Publikationsnummer 30 242/72, beschriebene Technik verwendet
werden. Wenn die Abstände von allen Standardparametern berechnet sind, werden alle im Abstandsregister 26
vorhandenen Abstände auf ein Signal der Steuereinheit 28 hin zur Gewinnung des Minimalwerts der Abstände
an die Minimalwertberechnungsschaltung 27 gesandt. Eine für den Standardparameter repräsentative Kategorie
bzw. Gruppe, die den Minimalwert angibt, wird als Ausgangssignal geliefert. Die Steuereinheiten 20 und 28
in den Fig.5 und 7 können unter Verwendung bekannter Zuordner etc. aufgebaut sein.
Fig. 8 zeigt ein weiteres Beispiel eines konkreten Aufbaus für die Erkennungseinheit 6 der Fig.3. In
diesem Beispiel wird ein Mikrocomputer verwendet.
In Fig.8 bezeichnet 30 einen Random-Access-Spei-
In Fig.8 bezeichnet 30 einen Random-Access-Spei-
C'hcr, ifi welchem die Von def VürvcTäruciiüngSVürnCii-
tung kommenden Sprachdaten gespeichert werden, 31 einen Datenbus, 32 eine Recheneinheit, 33 eine
Steuereinheit, welche aus einem Zuordner, einem Mikrobefehlsspeicher oder dergleichen besteht, 34
einen Multiplizierer, 35 eine Resultatanzeigeschaltung und 36 einen Parameterspeicher für Standardsprachen. ~t "*' + l
Im folgenden wird ein Erkennungsverarbeitungsver- 's», = TTHF
fahren, welches mit dem Mikrocomputer eines solchen -,
Aufbaus durchgeführt wird, beschrieben.
Es ist bekannt, daß bei Analysierung von Sprachen mit der vorgenannten PARCOR-Technik und Einschätzung
der Ähnlichkeit zwischen den Sprachen verschiedene Arten von Parametern aus den Autokorreiations >
<> koeffizienten von Wellenformen gewonnen werden. Dementsprechend kann der vorgenannte partielle
Autokorrelationskoeffizient A- und ein linearer Voraussagekoeffizient
ex. aus dem Autokorrelationskoeffizicr. ten ρ berechnet werden.
Es ist ebenfalls bekannt, daß die Einschätzung der Ähnlichkeit von Spektren von Wellenformen, die durch
den linearen Voraussagekoffizienten α oder den partiellen Autokorrelationskoeffizienten k ausgedrückt
sind, aus dem Autokorrelationskoeffizienten ρ und dem linearen Voraussagekoeffizienten λ gewonnen wird.
Bei einer solchen Prozedur kann die Verarbeitung durch das Inversfilter auch in der folgenden Weise
verwirklicht werden.
Für den Autokorrelationskoeffizienten ρτ über die tn
gesamte Sprache N einer Sprachwellenfonu Xj, die im
Random-Access-Speicher 30 gespeichert ist, gilt nun die
folgende Gleichung (1):
(D
wobei IP die Ordnung des Inversfilters und r die
Ordnung des Autokorrelationskoeffizienten bezeichnet. Aus dieser Gleichung berechnet sich der lineare
Voraussagekoeffizient α, der für das ganze Spektrum repräsentativ ist, aus der nach der in bekannter Weise
erfolgenden gleichzeitigen Lösung linearer Gleichungen, die durch den folgenden Zusammenhang (2)
gegeben sind:
a,p_
Pi
Pj
Pj
(2)
Der inverse Spektralparameter Aj ist nach folgender Gleichung (3) definiert:
(3)
Andererseits wird, was den Fall anbelangt, wo immer M Abtastproben (samples) (I Satz) herausgeholt
werden, während die Sprachwellenformen alle T Sekunden in den Speicher 30 geschoben werden, der
Autokorrelationskoeffizient dieses Teils betrachtet.
Sei K^ der Autokorrelationskoeffizient von M
Abtastwellenformwerten, die im K-ttn Zyklus (im
folgenden ν/ί-ter Satz«) herausgeholt werden, dann
wird dieser durch die folgende Gleichung (4) ähnlich dem Fall der vorstehenden Gesamtsprache wiedergegeben:
M-IP
V γ
V γ
(4)
<-· ΛΚΤ+ 1
I- I
I- I
In der aus den Gleichungen ;·1, und (3) gewonnenen
folgenden Gleichung (5) ist Kn der Autokorrelationskoeffizient
vcr Sprache des AT-ten Satzes, der das Inversfilter
mit der zum Spektrum der Gesamtsprache inversen Charakteristik durchlaufen hat:
IP
fJ = AaKPl+
(5)
K7 dieser Gleichung (5) ist der Autokorrelationskoeffizient
der Sprachwellenform, die das InversFiIter durchlaufen hat Wenn das Spektrum des Inversfilters
und das Spektrum der eingegebenen Sprachwellenform in vollkommener Weise in zueinander entgegengesetzten
Polaritäten sind, wird das Spektrum der Ausgangswellenform des Inversfilters weiß (sprachfreier Schall)
und der Autokorreiationskoeffizient K7 zum Minimum.
Das heißt, durch Anwendung dieser Methode kann das Ausmaß von Koinzidenz zwischen den Spektren zweier
Sprachwellenformen abgeschätzt bzw. berechnet wer-
ien. Die Methode der Berechnung wird nun konkreter erläutert.
Der Autokorrelationskoeffizient der ersten Sprache der beiden Sprachen wird mit K1 (1) unci der
Autokorrelationskoeffizient der zweiten Sprache mit K'r(2) bezeichnet (K der ersten Sprache und K der
zweiten Sprache stimmen überein, wenn man sie in linearer Beziehung mit der Zeit berechnet, sie stimmen
aber nicht überein bei der dynamischen Programrnierungsanpassung (dynamic programming (DP) matching)
etc., bei welcher eine nicht lineare Zeitbasis herangezogen wird). Ebenso werden die Koeffizienten des
inversen Spektrums, die man daraus erhält mit KA(\)
und ΚΆ(2) bezeichnet. Dann wird die Ähnlichkeit d
zwischen dem K-ten und dem K'-ten Satz der beiden Sprachen durch die folgende Gleichung (6) ausgedrückt.
10
15
Σ KAj(\) K'fi(2))
VJ
KAj(2) KtJ(2))
(6)
(Κ'Αο(2)Κη(\) + 2Σ K-Aj{2) K (I))
Z kAj{\) Kyj(\))
Je kleiner der Wert von c/ist. desto ähnlicher sind die
Spektren der beiden Sprachen. Wenn die Spektren der beiden Sprachwellenformen vollkommen übereinstimmen,
werden die betreffenden Nenner und Zähler des ersten und des zweiten Ausdrucks der Gleichung (6)
einander gleich und d=2. Im allgemeinen stimmen die beiden nicht überein, und in einem solchen Fall der
Nichtübereinstimmung wird der Zähler größer als der Nenner und der Wert von c/groß.
die Abschätzung, die auf der Synthese der Ausmaße von Übereinstimmung der partiellen Autokorrelationskoeffizienten,
wie im Beispiel der F i g. 7, basiert. Der Grund dafür liegt darin, daß der Einfluß der Arbeitsgenauigkeit
hinsichtlich der Auswertung der partiellen \uiokorrelaüonskoeffizienten
etc. in den einzelnen Koeffizienten erscheint, so daß, obwohl der Fehler insgesamt klein ist,
in den einzelnen Koeffizienten in manchen Fällen große Fehler entstehen.
Bei Verwirklichung der vorstehenden Aufbereitung bzw. Verarbeitung mit der Vorrichtung der Fig. 8
werden die im Random-Access-Speicher 30 gespeicherten Sprachwellenformen für jeden Satz sequentiell
herausgeholt und über den Datenbus 31 auf die Recheneinheit 32 gegeben. Auf einen Befehl der
Steuereinheit 33 hin führt die Recheneinheit 32 zusammen mit dem Multiplizierer 34 die folgenden
Operationen durch. Zunächst wird entsprechend Gleichung (4) der Autokorrelationskoeffizient Ke berechnet.
Unter Verwendung dieses Koeffizienten wird der lineare Voraussagekoeffizient Κ» gemäß Gleichung (2)
berechnet. Nachfolgend wird unter Verwendung des linearen Voraussagekoeffizienten ΚΛ der Inverssp^ktrumparameter
KA nach Gleichung (3) berechnet. Aus dem berechneten Parameter wird der Autokorrelationskoeffizient
Ky der Sprachwellenform, die das Inversfilter
durchlaufen hat, nach Gleichung (5) berechnet. Ferner werden die im Standardparameterspeicher 36 gespeicherten
Standardparameter K'A und K\ sequentiell
ausgelesen. Unter Verwendung derselben und der in obiger Weise berechneten Werte KA und K1 wird die
Ähnlichkeit d nach Gleichung (6) ermittelt. Abhängig von der Größe der Ähnlichkeit wird die Spracherkennungsverarbeitung
durchgeführt.
Die Wirkungen der oben beschriebenen Ausführungsform der Erfindung werden nun am Beispiel der
Sprecheridentifikation, gerichtet auf Telefonsprache, ausgeführt.
In diesem Beispiel wurde die Abschätzung unter
20
25
30
Es versteht sich, daß im Falle der Anwendung der 4o Verwendung von Sprachen durchgeführt, die über
Ferngesprächsleitungen von zwei verschiedenen Fernämtern übertragen und an einem dritten Platz
aufgezeichnet wurden. Wenn Sprechererkcr.nung mit den Charakteristikparametern in Form der partiellen
oben beschriebenen Prozedur das Inversfilter ohne weiteres in der Form des Autokorrelationskoeffizienten
erhalten werden kann, ohne es in dem Wellenformbereich durchzuführen. In diesem Fall erhält man im Zuge
der Verarbeitung einen linearen Voraussagekoeffizien- 45 Autokorrelationskoeffizienten unter Verwendung der in
ten (auch »Regressionskoeffizient« (»regression coeffi- F i g. 7 gezeigten Erkennungseinheit durchgeführt wurcient«)
genannt) k*, welcher eine Art von linearem de, betrug der Sprecheridentifikationsprozentsatz (der
Voraussageparameter ist. Es ist selbstverständlich, daß Prozentsatz korrekter Antworten im Zeitpunkt, wenn
der Wert des Koeffizienten K1x ausreichend stabil sein die Entscheidung auf der Basis eines Entscheidungsmuß. Insbesondere gewinnt man das Resultat, das man 50 Schwellenwerts durchgeführt wird, der so eingestellt ist,
durch indirektes Durchlaufenlassen der Sprachwellen- daß der Anteil, zu dem die Sprache einer bestimmten
form durch das Inversfilter erhält, in Form des Person als die einer anderen betrachtet und irrtümlich
Autokorrelationskoeffizienten ky, so daß der Einfluß der zurückgewiesen wird, gleich dem Anteil wird, zu dem
Stabilität des Koeffizienten groß ist. die Sprache eines anderen irrtümlich als diejenige der
Ky0 ist der Autckorrelationskoeffizient 0. Ordnung 55 bestimmten Person betrachtet und akzeptiert wird)
und stellt das Leistungsspektrum der Ausgangswellenform des Inversfilters dar. Wenn daher der gewonnene
lineare Voraussagekoeffizient Kx. instabil ist, nimmt er
einen negativen Wert an. was physikalisch unmöglich
ist Selbst in einem solchen Fall erhält man einen sehr 60
stabilen Koeffizienten Kx durch Durchführung obiger
Verarbeitung, mit dem Ergebnis, daß man eine
hervorragende Erkennung erzielt Mit obiger Methode
lineare Voraussagekoeffizient Kx. instabil ist, nimmt er
einen negativen Wert an. was physikalisch unmöglich
ist Selbst in einem solchen Fall erhält man einen sehr 60
stabilen Koeffizienten Kx durch Durchführung obiger
Verarbeitung, mit dem Ergebnis, daß man eine
hervorragende Erkennung erzielt Mit obiger Methode
der Berechnung, welche die Voraussagefehlerkorrela- _ _
tion der Ausgangswellenform (Voraussagefehlerwelle), 65 Prozentsatz von ungefähr 90 Prozent mit der trkendie
dem Inversspektrumparameter unterworfen worden nung gemäß der Erfindung nach F i g. 3 erreicht wurde,
ist, ausnützt, wird das Ausmaß der Koinzidenz des In Anbetracht der Tatsache, daß der Identifikationsprogesamten Spektrums abgeschätzt Dies ist stabiler als zentsatz bei der Sprecheridentifikation wesentlich und
p )
ungefähr 65 Prozent nach dem bekannten Erkennungsverfahren gemäß Fig. 1, während sie auf 78 Prozent
nach der erfindungsgemäßen Erkennung entsprechend F i g. 3 stieg.
Wenn die Voraussagefehlerkorrelation für die Identifikation unter Heranziehung der Erkennungseinheit der
F i g. 8 verwendet wurde, betrug der Sprecheridentifikationsprozentsatz ungefähr 75 Prozent mit der bekannten
Erkennung der Fig. 1, während ein Identifikations-
grundlegend verschieden von demjenigen der phonetischen Erkennung ist, daß der Wert von 100 Prozent
niemals garantiert ist und daß der Prozentsatz ungefähr 95 Prozent selbst unter idealen Bedingungen ohne
Störungen und Schaltkreisverzerrungen ist, kann der oben genannte Identifikationsprozentsatz von 90
Prozent als epochemachend bezeichnet werden.
Es ist möglich, einen Mikrocomputer oder dergleichen
anstelle des Fourier-Transformierers, der Bandauswahlschaltung und des inversen Fourier-Transformierers
in Fig.3 zu verwenden und die Operationen
der Vorrichtungen mit einem Programm durchzuführen.
Ferner sind die Abtastfrequenz, das Telefonübertragungsband
etc. nicht auf die oben angeführten Werte beschränkt, sondern können irgendwelche beliebige
Werte annehmen.
Wie oben ausgeführt, kann durch die Erfindung die Stabilität des InversFilters verbessert, die Qualitätsverschlechterung
von Sprachinformation innerhalb des Übertragungsbands verhindejt und der Einfluß von
Störsignalen außerhalb des Übertragungsbands beseitigt werden, so daß die Spracherkennung mit ausreichend
hoher Exaktheit durchgeführt werden kann.
Hierzu 6 Blatt Zeichnungen
Claims (1)
1. Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung,
die eine Eingangsstufe zum Empfang eines über ein Übertragungssystem mit vorgegebenem Übertragungsband übertragenen
Sprachsignals, eine Vorverarbeitungsstufe mit einem Inversfilter zur Vorverarbeitung des empfangenen
Sprachsignals und eine Erkennungsstufe zur Erkennung des von der Vorverarbeitungsstufe abgegebenen
Sprachsignals aufweist, gekennzeichnet durch folgende Verfahrensschritte:
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP53055556A JPS5850360B2 (ja) | 1978-05-12 | 1978-05-12 | 音声認識装置における前処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2919085A1 DE2919085A1 (de) | 1979-11-15 |
DE2919085C2 true DE2919085C2 (de) | 1983-08-04 |
Family
ID=13001966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2919085A Expired DE2919085C2 (de) | 1978-05-12 | 1979-05-11 | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung |
Country Status (4)
Country | Link |
---|---|
US (1) | US4283601A (de) |
JP (1) | JPS5850360B2 (de) |
DE (1) | DE2919085C2 (de) |
GB (1) | GB2022896B (de) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4397006A (en) * | 1980-12-31 | 1983-08-02 | Mobil Oil Corporation | Cross trace coherent noise filtering for seismograms |
CA1171945A (en) * | 1981-04-16 | 1984-07-31 | Mitel Corporation | Voice recognizing telephone call denial system |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
US4451700A (en) * | 1982-08-27 | 1984-05-29 | M. A. Kempner, Inc. | Automatic audience survey system |
US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JPS6458874A (en) * | 1987-08-28 | 1989-03-06 | Kitz Corp | Ball valve |
JPH01118900A (ja) * | 1987-11-01 | 1989-05-11 | Ricoh Co Ltd | 雑音抑圧装置 |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
IN184794B (de) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
FR2722631B1 (fr) * | 1994-07-13 | 1996-09-20 | France Telecom Etablissement P | Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
US6539352B1 (en) * | 1996-11-22 | 2003-03-25 | Manish Sharma | Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation |
DE69840583D1 (de) * | 1997-04-16 | 2009-04-02 | Emma Mixed Signal Cv | Verfahren und Vorrichtung zur Rauschverminderung, insbesondere bei Hörhilfegeräten |
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
EP0945852A1 (de) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Sprachsynthese |
US6912496B1 (en) * | 1999-10-26 | 2005-06-28 | Silicon Automation Systems | Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics |
GB2355834A (en) | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
GB0023498D0 (en) * | 2000-09-26 | 2000-11-08 | Domain Dynamics Ltd | Spectral reconfiguration permutation and mapping |
DE10116358A1 (de) * | 2001-04-02 | 2002-11-07 | Micronas Gmbh | Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen |
US6751564B2 (en) | 2002-05-28 | 2004-06-15 | David I. Dunthorn | Waveform analysis |
WO2005034395A2 (en) * | 2003-09-17 | 2005-04-14 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
CN101371472B (zh) * | 2005-12-12 | 2017-04-19 | 尼尔逊媒介研究股份有限公司 | 对声音/视觉装置进行无线计量的系统和方法 |
US9015740B2 (en) | 2005-12-12 | 2015-04-21 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
US9124769B2 (en) | 2008-10-31 | 2015-09-01 | The Nielsen Company (Us), Llc | Methods and apparatus to verify presentation of media content |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
-
1978
- 1978-05-12 JP JP53055556A patent/JPS5850360B2/ja not_active Expired
-
1979
- 1979-05-08 US US06/037,026 patent/US4283601A/en not_active Expired - Lifetime
- 1979-05-11 DE DE2919085A patent/DE2919085C2/de not_active Expired
- 1979-05-11 GB GB7916488A patent/GB2022896B/en not_active Expired
Non-Patent Citations (1)
Title |
---|
NICHTS-ERMITTELT |
Also Published As
Publication number | Publication date |
---|---|
GB2022896A (en) | 1979-12-19 |
JPS54147708A (en) | 1979-11-19 |
US4283601A (en) | 1981-08-11 |
JPS5850360B2 (ja) | 1983-11-10 |
DE2919085A1 (de) | 1979-11-15 |
GB2022896B (en) | 1982-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3510660C2 (de) | ||
DE3819178C2 (de) | ||
DE60303214T2 (de) | Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE3310335C2 (de) | ||
EP0296588A2 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE10234130B3 (de) | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals | |
DE2622423C3 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DD292791A5 (de) | Verfahren zur uebertragung eines signals | |
DE60014031T2 (de) | Sprachererkennung durch korrelierung von spektrogrammen | |
EP0957471B1 (de) | Messverfahren zur gehörrichtigen Qualitätsbewertung von Audiosignalen | |
EP0285222A2 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE19961817B4 (de) | Frequenzabweichung detektierendes Gerät und Frequenzabweichungs-Detektionsverfahren | |
DE3929481A1 (de) | Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen | |
DE2720666A1 (de) | Verfahren und anordnung zur geraeuschanalyse | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
EP0916206B1 (de) | Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals | |
DE60200932T2 (de) | Vorrichtung und verfahren zur analyse eines sprachsignals | |
DE19516063C2 (de) | Verfahren zur Prüfung von Sendefrequenzen und zur Vergabe von Frequenzen für Basisstationen in einem zellularen Funknetz | |
WO1989003574A1 (en) | Digital adaptive transform coding process | |
DE3335026C2 (de) | ||
DE19746507B4 (de) | Verfahren zur Zuordnung eines Empfangssignals zu einer von mehreren Klassen von Modulationsarten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAP | Request for examination filed | ||
OD | Request for examination | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
8181 | Inventor (new situation) |
Free format text: NAKAJIMA, AKIRA, HACHIOJI, TOKYO, JP ICHIKAWA, AKIRA, KOKUBUNJI, TOKYO, JP NAKATA, KAZUO, KODAIRA, TOKYO, JP |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |