DE2919085C2

DE2919085C2 - Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung

Info

Publication number: DE2919085C2
Application number: DE2919085A
Authority: DE
Inventors: Akira Kokubunji Tokyo Ichikawa; Akira Hachioji Tokyo Nakajima; Kazuo Kodaira Tokyo Nakata
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1978-05-12
Filing date: 1979-05-11
Publication date: 1983-08-04
Also published as: GB2022896A; JPS54147708A; US4283601A; JPS5850360B2; DE2919085A1; GB2022896B

Description

(1) das Sprachsignal aus der Eingangsstufe wird einer Fourier-Transformation zur Gewinnung eines Frequenzspektrums unterworfen;

(2) aus dem im ersten Verfahrensschritt gewonnenen Fre«5i<nzspektrum werden nur die Komponente innerhalb des Übertragungsbandes und die aufgrund der Abtastung entstandene gefaltete Komponente entnommen, und dieser entnommene Spektralteil wird zu einem kontinuierlichen Frequenzband, beginnend bei 0 Hz, umgeordnet;

(3) ein Signal, das dem im zweiten Verfahrensschritt entnommenen Spektralteil entspricht, wird einer inversen Fourier-Transformation unterworfen;

(4) das im iLitten Verfahrensschritt erhaltene Signal wird zur Gewinnung ^ines vorgegebenen charakteristischen Parameters analysiert; und

(5) ein charakteristischer Wer« der zu dem im vierten Verfahrensschritt gewonnenen charakteristischen Parameter invers ist, wird in das Inversfilter eingegeben, und das empfangene Sprachsignal wird zur Gewinnung des Eingangs-Sprachsignals für die Erkennungsstufe durch das Inversfilter geleitet.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das von der Eingangsstufe empfangene Sprachsignal in ein digitales Signal unter Verwendung einer Abtastfrequenz umgesetzt wird, die im wesentlichen das 2"+'-fache (n = positive ganze Zahl) der Übertragungsbandbreite des Übertragungssystems beträgt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als charakteristischer Parameter ein partieller Autokorrelationskoeffizient verwendet wird.

4. Vorverarbeitungseinrichtung für eine Spracherkennungsvorrichtung, die eine Eingangsstufe (2, 3) zum Empfang eines über ein Übertragungssystem (1) mit einem vorgegebenen Überfagungsband übertragenen Sprachsignals, eine Analysierstufe (4) zur Analyse des von der Eingangsstufe (2, 3) abgegebenen Signals zur Gewinnung eines speziellen charakteristischen Parameter sowie ein Inversfilter (5) umfaßt, dem ein charakteristischer Wert, der gegenüber dem von der Analysierstufe (4) gewonnenen charakteristischen Parameter invers ist, zugeführt ist und welches das Sprachsignal von der Eingangsstufe (2, 3) hindurchläßt, um das hindurchgelassene Sprachsignal zu erkennen, gekennzeichnec durch

eine erste Umwandlungsstufe (7), die das Sprachsignal aus der Eingangsstufe (2, 3) einer Fourier-

Transformation zur Gewinnung eines Frequenzspektrums unterwirft;

eine Auswahlstufe (8), die aus dem von der ersten Umwandlungsstufe (7) gewonnenen Frequenzspektrum nur die Komponente innerhalb des Übertragungsbandes und die aufgrund der Abtastung gefaltete Komponente entnimmt und diesen entnommenen Spektralteil zu einem kontinuierlichen Frequenzband, beginnend bei 0 Hz, umordnet; sowie eine zweite Umwandlungsstufe (9), die den entnommenen Spektralanteil einer inversen Fourier-Transformation unterwirft und das sich ergebende Signal der Analysierstufe (4) zuführt.

5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß die Eingangsstufe ein Filter (2) für eine Tiefpaßfilterung des Sprachsignals aus dem Übertragungssystem (1) und einen Analog-Digitalwandler (3), der das Ausgangssignal des Filters (2) abtastet und in ein digitales Signal umwandelt aufweist

6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet daß die Anaiysierstufe (4) eine Einrichtung (18) zur Analyse des Ausgangssignals der zweiten Umwandlungsstufe (9) und Berechnung eines partiellen Autokorrelationskoeffizienten umfaßt

Die Erfindung bezieht sich auf ein Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung nach dem Oberbegriff des Patentanspruchs 1 und auf eine Vorverarbeitungsvorrichtung nach dem Oberbegriff des

Patentanspruchs 4.

Die Erfindung ist insbesondere anwendbar bei der Erkennung von Sprache, die über ein Telefonnetz übertragen wird. Bei einem Informationsdienst-System, welches ein ein Computersystem enthallendes Informationszentrum mit einem Telefonnetz verbindet, wird die Sprache einer Tonantworteinheit (audio response unit,

-.5 ARU) als das Ausgangssignal des Informationszentrums verwendet, während ein Tastschaltersignal oder direkt eine Stimme eines Sprechers als Eingabe auf das Telefonnetz verwendet v.ird. PKr durch den Sprecher eingegebene Sprache wird über das Telefonnetz an das Informatior.^zsntrum übertragen. Im Informationszentriim wird eine Spracherkennung durchgeführt, indem

die Ähnlichkeiten zwischen der eingegebenen Sprache und einem Standard-Sprachsignal untersucht werden.

Die eingegebene Sprache, die auf diese Weise das Netz durchlaufen hat, ist unter dem Einfluß der Übertragungscharakteristik des Übertragungssystems verzerrt. Darüber hinaus ist die Verzerrungscharakteristik nicht gleichförmig, sondern hängt gewöhnlich vom Leitweg ab. Dementsprechend werden in der Spracher-

bo kennungsvorrichtung Sprachen verglichen, die über Schaltkreise mit unterschiedlichen Verzerrungscharakteristiken ankommen. Es ist daher notwendig, den Einfluß der Verzerrung zu beseitigen oder durch Normierung etc. zu vermindern.

Ein Verfahren nach dem Stand der Technik, das anhand der Fig. 1 und 2 weiter unten noch näher erläutert wird, besteht darin, daß ein bestimmter Ausschnitt der eingegebenen Sprache analysiert wird,

um eine Spektralinfonnation in diesem Abschnitt herauszuziehen, daß ein Inversfdter, welches eine zum Spektrum umgekehrte Charakteristik hat, aufgebaut wird, und daß die eingegebene Sprache durch das Inversfilter geführt wird, um den Einfluß der Übertragungscharakteristik auf die eingegebene Sprache zu beseitigen. Bei diesem früheren Verfahren wird jedoch das Inversfilter sehr astabil und folgt in nur geringem Maße der Charakteristik innerhalb eines Sprachübertragungsbandes. Ein weiterer Nachteil besteht darin, daß es auf Störungen außerhalb des Sprachübertragungsbandes anfällig ist.

Aufgabe der Erfindung ist es, ein Vorbearbeitungsverfahren und eine Vorbearbeitungsvorrichtung für eine Spracherkennungsvorrichtung zu schaffen, bei welcher die Stabilität eines Inversfilters verbessert, ein Qualitätsveriust der Sprachinformation innerhalb eines Übertragungsbandes verhindert und der Einfluß von Störsignalen außerhalb des Übertragungsbandes beseitigt ist

Die erfindungsgemäße Lösung dieser Aufgabe ist im Kennzeichnungsteil des Patentanspruchs 1 bzw. des Patentanspruchs 4 angegeben. Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet

Eine Ausführungsform der Erfindung wird im folgenden in Verbindung mit der beigefügten Zeichnung beschrieben. Auf dieser ist bzw. sind

F i g. 1 ein Blockschaltbild einer bekannten Spracherkennungsvorrichtung,

Fig. 2(a) bis 2(g) Kurven, die Spektren und Charakteristiken, verschiedener Teile aus F i g. 1 zeigen,

Fig.3 ein Blockschaltbild einer Ausführungsform einer Spracherkennungsvorrichtung, welche ein Vorverarbeitungsverfahren gemäß der Erfindung verwirklicht,

F i g. 4(a) bis 4(c) Kurven, die Spektren und Charakteristiken von Teilen aus F i g. 3 zeigen,

F i g. 5 ein Blockschaltbild, welches ein Beispiel eines konkreten Aufbaus des Teils in Fig.3 zeigt, der die Vorverarbeitungsvorrichtung darstellt,

Fig.6 ein Blockschaltbild, welches ein Beispiel für den konkreten Aufbau eines Teils in F i g. 5 zeigt, und

F i g. 7 und 8 Blockschaltbilder, von denen jedes ein Beispiel für den konkreten Aufbau einer Erkennungseinheit in F i g. 3 darstellt.

F i g. 1 zeigt den Aufbau einer Spracherkennungsvorrichtung zur Realisierung eines bekannten Vorverarbeitungsverfahrens, während d>e F i g. 2(a) bis 2(g) spektrale und Übertragungscharakteristiken von verschiedenen Teilen aus F i g. 1 zeigen.

Gemäß F i g. 1 durchläuft Sprache Sp eine Telefonleitung 1 mit einer bestimmten Übertragungscharakteristik, danach ein Tiefpaßfilter 2 zur Verhinderung von auf ein Abtasten zurückgehenden gefalteten Störsignalen. Sie wird mit einer bestimmten Frequenz abgetastet und durch einen Analog-Digitalwandler (im folgenden als »AD-Wandler« abgekürzt) 3 in digitales Signal umgewandelt. Ein Charakteristikparameter innerhalb bestimmter Grenzen bzw. eines bestimmten Abschnitts wird aus der digitalisierten Sprache in einer Analysiereinheit 4 gewonnen und auf ein Inversfilter 5 gegeben. Indem man die eingegebene Sprache durch das Inversfilter 5 schickt, wird Sprache mit darin beseitigten durch die Charakteristik der Telefonleitung 1 bedingten Unstimmigkeiten auf die Erkennungseinheit 6 gegeben. In der Erkennungseinneit 6 geschieht die Spracherkennung durch Vergleich der so gewonnenen Sprache mit einer Standardsprache und Auswertung der Ähnlichkeiten zwischen diesen.

F i g. 2(a) zeigt schematisch das mittlere Spektrum der Sprache, bevor sie durch die Telefonleitung 1 geschickt

wird, während F i g. 2(b) die Übertragungscharakteristik der Telefonleitung 1 wiedergibt Wie aus Fig.2(b) ersichtlich, hat die Übertragungscharakteristik der Telefonleitung 1 eine Bandbreite von 0,3 kHz bis 3,4 kHz. Daher zeigt das mittlere Spektrum der Sprache

ίο nach dem Durchlaufen der Telefonleitung 1 eine Bandbegrenzung mit abruptem Verlauf, wie in F i g. 2(c) dargestellt, wobei Störsignale außerhalb des Bandes enthalten sind.
, Wenn für das Tiefpaßfilter 2 zur Verhinderung gefalteter Störsignale infolge des Abtastens eine sehr abrupte Abschneidcharakteristik gewählt wird, kommt es zu einer Beeinträchtigung nachfolgender Verarbeitungsschritte. Aus diesem Grund wird üblicherweise ein Filter Korwendet, welches, wie in F i g. 2(d) gezeigt, bei einer Frequenz zu dämpfen begir/· -a, die etwas unter den 3,4 kHz Hegt, die die Obergrenze ar s Telefonübertragungsbandes darstellen, und die Abschneidfrequenz f_c bei 4 bis 5 kHz (beispielsweise 42 kHz) hat Durch ein solches Tiefpaßfilter 2 werden Störkomponenten bei und oberhalb der Abschneidfrequenz /_c weitgehend entfernt Es geht jedoch auch Information im Sprachband, welche nicht höher als 3,4 kHz ist, in gewissem Maße verloren, was zu dem Problem führt, daß ein Qualitätsverlust der Information auf triti.

Im AD-Wandler 3 geschieht das Abtasten üblicherweise bei einer Abtastfrequenz von 8 bis 10 kHz. Daher hat, wie in F i g. 2(e) gezeigt, das mittlere Leistungsspektrum des mit dem AD-Wandler 3 gewonnenen digitalen Signals Liniensymmetrie mit der Mitte bei einer Frequenz f„ die gleich der halben Abtastfrequenz ist, und erstreckt sich bis zur Abtastfrequenz. Diese Ausgabe des AD-Wandlers 3 wird in der Analysiereinheit 4 einer Spektralanalyse unterworfen unJ die zum analysierten Spektrum inverse Charakteristik im Inversfilter 5 eingestellt Damit nimmt die Durchlaßcharaktevistik des Inversfilters 5 die in Fig.2(f) gezeigte Form an.

In einem Fall, wo auf diese Weise Sprache mit dem in F i g. 2(e) gezeigten Spektrums durch die Analysiereinheit 4 analysiert und die Charakteristik des Inversfilters 5 entsprechend dem Ergebnis eingestellt wird, fällt das in Fig.2(e) gezeigte Spektrum an der Ober- und Untergrenze des Bandes der Telefonleitung abrupt ab, und diese abrupten Verläufe sind in dem durch die

>(i Analysiereinheif 4 zu analysierenden Band enthalten, d. h., innerhalb Frequenzen 0 — f_s. Infolgedessen besteht bei dem Inversfilter, in welchem die zum Spektrum des At.aiysierergebnisses inverse Charakteristik eingestellt ist, die Gefahr, daß es an Abschnitten, welche den

•33 abrupten Verlaufen des Obergrenz- und Untergreiizabschnitts des Telefonübertragungsbands folgen, astabil wird. Ein weiteres Problem ist, daß auch die Verfolgung der Charakteristik innerhalb des Telefonübertragungsbandes schlechter wird.

*o Obwohl, wie in Fig.2(g) dargestellt, bei dem mittleren Sprachspektrum, das das Inversfilter durchlaufen hat, der Einfluß der Telefonleitung normiert ist und das Spektrum innerhalb des Bands flach wird, enthält es auf gmße Werte verstärkte Störkomponen-

bä ten außerhalb des Bands. Dies liegt daran, daß ein kleiner Teil des Spektrums der eingegebenen Sprache im Inversfilter umgekehrt betont wird.
Nun zu einer Ausführungsform der Erfindung.

Der Ausdruck »Spracherkennung« ist hier der allgemeine Ausdruck für die Erkennung. Messung etc. von Sprachwellenform-Information, wie Worterkennung. Sprecherkennung und Sprecheridentifikation.

Fig. 3 zeigt eine Ausführungsform einer Spracher- =, kennungsvorrichtung zur Verwirklichung eines Vorverarbeitungsverfahrens gemäß der Erfindung, während die Fig.4(a) bis 4(c) Spektren und Charakteristika zur Erläuterung von Wirkungsweisen von Teilen in Fig. 3 sind. in

In F i g. 3 bezeichnet 7 einen schnellen Fourier-Transformierer, 8 eine Bandbereiehsauswahlschaluing, und 9 einen schnellen inversen Fourier-Transformierer.

Wie in Fig. 4(a) dargestellt, ist die Abschneidfrequenz f_c des Tiefpaßfilters 2 ausreichend hoch dafür r, eingestellt, daß Sprache, die nicht höher als die Obergrenze von 3.4 kHz des Telefonübertragungsbands ist, nicht beeinträchtigt wird, und so, daß sie niedriger als die Frequenz f_s ist, die gleich der Hälfte der Abtastfrequenz ist. Dementsprechend muß die Frequenz f, höher als die die Obergrenze des Telefonübertragungsbandes bildenden 3,4 kHz sein.

Bei einem solchen Aufbau durchläuft, über die Telefonleitung 1, die die in F i g. 2(b) gezeigte Charakteristik aufweist, die Sprache SP das Tiefpaßfilter 2, das die in Fig.4(a) gezeigte Dämpfungscharakteristik aufweist, bei welcher der Abfall bei einer über der Obergrenze des Telefonübertragungsbands liegenden Frequenz beginnt und die Abschneidfrequenz f_c ausreichend hoch ist, wonach sie auf den AD-Wandler 3 )o gegeben wird. Dann wird sie mit der in obigo Weise festgesetzten Abtastfrequenz abgetastet und in ein Digitalsignal bestimmter Bits umgewandelt.

Was die umgewandelte Ausgabe anbelangt, so wird die gesamte zu analysierende Sprache durch den schnellen Fourier-Transformierer 7 kollektiv Fouriertransformiert. wobei sich eine SpektraicharakiL-ribiik ergibt, wie sie in F i g. 4(b) gezeigt ist. In der Bandbereichsauswahlschaliung 8 wird/werden nur ein Band, in welchem die Sprache vorliegt, d. h.. das -»υ Telefonübertragungsband von 0.3 bis 3.4 kHz, und das Band der auf das Abtasten zurückgehenden gefalteten Komponente aus dem in Fig.4(b) gezeigten Spektrum herausgegriffen. Man erhalt also ein Spektrum, in welchem die Bänder von 0 Hz an neu angeordnet sind, -ι; wie dies in F i g. 4(c) gezeigt ist.

Es ist dabei hinsichtlich des schnellen Fourier-Transformierers 7 zweckmäßig, daß er Sprachdaten von Potenzen von »2« transformiert. Wenn daher die einzugebenden Sorachdaten nicht Potenzen von »2-< sind, ist es günstig. »0« hinter den Daten einzusetzen und die gesamten Daten in Potenzen von »2« zu bringen. Es ist ferner zweckmäßig, daß die Zahl von Daten des inversen Fourier-Transformierers 9 eine von Potenz^r von »2« ist. Beispielsweise wird «ie aus Fig.4(c) ersichtlich, die äquivalente Abtastirequenz des ausgewählten Spektrums bzw. 2 χ /,' 6.2 kHz, was das Doppelte der Telefoniibertragungsbandbreite von 3,1 kHz(= 3,4 kHz-03 kHz) ist. Wenn daher 12.4 kHz, was doppelt so hoch ist, zur Abtastfrenuenz 2 · /_s des Ad-Wandlers 3 gemacht wird, wird die Frequenz fs. die gleich der Hälfte davon ist, 62 kHz. Dies erfüllt auch die Bedingung, daß die Frequenz f_s höher als die Obergrenze von 3,4 kHz des Telefonübertragungsbands ist Wenn die Zahl von Daten des Spektrums, die bis hinauf zur Frequenz 2 · f/ repräsentieren, ein Wert einer Potenz von »2« ist, wird dementsprechend auch die Zahl von Daten des Spektrums, die bis hinauf zur Frequenz 2 · f, repräsentieren, nach der Beziehung 2 /", = 2 (2 A,') eine Potenz von »2« und dies ist günstig.

Üblicherweise ist der Abtastwert der Sprachwellenform mehrere 100 oder mehr. Indem man den Wert so auswählt, dab er eine Potenz von »2« ist, werden daher 2/V und 2f, automatisch Potenzen von »2«.

In obigem Beispiel wurde 2/iauf das Doppelte von 2f_s' eingestellt, sie kann jedoch allgemein auf 2ⁿ-mal (n>2) von 2U eingestellt werden. In diesem Fall wird jedoch die Abtastfrequenz hoch und die notwendige Kapazität des Datenspeichers nimmt in diesem Maße zu. Wenn man auch berücksichtigt, daß die Verarbeitungsmenge für den schnellen Fourier-Transformierer zunimmt, so ist das Einstellen auf den doppelten Wert, der das erforderliche Minimum darstellt, wünschenswert. Das heißt, wenn das Telefonübertragungsband von einer Frequenz f\ zu einer Frequenz /i reicht, ist es günstig, η (η = 1, 2 ...>) so auszuwählen, daß die Beziehung (h — h) · Ϊ"*' h ■ 2 erfüllt isi, und das Abtasten bei (h — f\) ■ 2"+ 'durchzuführen.

Wie aus einem Vergleich der Fig.4(c) und 4(b) einsichtig, enthält das Frequenzspektrum (Fig.4(c)), welches auf den inversen Fourier-Ttansformierer 9 gegeben wird, überhaupt keine Komponente außerhalb des Sprachbarides. Daher sind die abrupten Charakteristiken des Bandabschneidens und die Störungskomponenten außerhalb des Bandes in dem durch die AnalysicTeinheit 4 zu analysierenden Band, d. h., in 0 —/",', nicht vorhanden. Infolgedessen sind die abrupten Charakteristiken, welche Faktoren der Instabilität darstellen, für das Inversfilter 5 nicht erforderlich, so daß sich ein [nversfilter realisieren läßt, welches stabil ist und der Übertragungscharakteristik innerhalb des Bandes gut folgt. Gleichzeitig damit ist auch die Sprachinformation innerhalb des Bandes qualitativ nicht verschlechtert und Störgeräusche außerhalb des Bandes können vollkommen entfernt werden.

Wie oben angegeben, kann die halbe Frequenz f, der Abtastfrequenz auf einem hohen Wert, beispielsweise 6.2 kHz, eingestellt werden. Daher kann die Dämpfungscharakteristik des Tiefpaßfilters 2 so eingestellt werden, daß sie bei einem über der Obergrenze von 3,4 kHz des Telefonübertragungsbandes liegenden Wert ansteigt, so daß die Sprachinformation innerhalb des Bandes in diesem Teil nicht qualitätsverschlechtert wird.

Ferner wird die äquivalente Abtastfrequenz 2 · f/ der auf das Inversfilter i.u g^b^-den umgewandelten Wellenform 6,2 kHz, was ein sehr niedriger Wert verglichen ..-.it der Abtastfrequenz von 8 bis 10 kHz des Standes der Technik ist. Daher sind die m der Analysier>;inheit 4, dem Inversfilter 5 und der Erkennungseinheit 6 zu verarbeitenden Mengen vermindert, wodurch die Verarbeitungsgeschwindigkeiten in diesem Maße erhöht sind. Selbst wenn man in Rechnung stellt, daß die Verarbeitungsvorgänge im schnellen Fourier-Transformierer 7, der Bandbereichsauswahlschaltung 8 und dem inversen Fourier-Transformierer 9 zunehmen, ergibt die Erfindung gegenüber dem Stand der Technik insgesamt eine Verbesserung.

F i g. 5 zeigt den Aufbau einer Ausführungsform des Vorverarbeitungsteils der Vorrichtung der Fig.3. Dieser Teil entspricht dem schnellen Fourier-Transformierer 7, der Bandauswahlschaltung 8, dem inversen Foürier-Transforniierer 9, der Analysiereinheit 4 und dem Inversfilter 5 in F i g. 3.

In Fig.5 bezeichnen 11 bis 15 Register, 16 einen Fourier-Transformierer, 17 einen inversen Fourier-

Transformierer, 18 eine Inversfilterkoeffizienten-Berechnungsschaltung, 19 ein Inversfilter und 20 ein Steuerglied.

Bei einem solchen Aufbau wird die digitale Sprachwellenform aus dem AD-Wandler 3 der Fig.3 im Register 11 gespeichert. Die im Register 11 befindliche Spr,/:hwel!enform wird an den Fourier-Transformierer 16 gesandt, dort werden Daten der Minimalzahl von Potenzen von »2«, die nicht kleiner als die Zahl von Daten der Eingangs-Sprachwellenforrr. ist, Fouriertransformiert, und das Ergbnis an das Register 12 gesandt. Dementsprechend wird die spektrale Information, wie sie in Fig.4(b) gezeigt ist, im Register 12 gespeichert. Durch ein Steuersignal des Steuerglieds 20 wird das Spektrum des Telefonübertragungsbands von 0,3 bis 3,4 kHz und das Band der gefalteten Komponente innerhalb des Registers 12 herausgeholt und das Spektrum in dem Zusisnd, in wslchsm die Bänder in d?r in F i g. 4(c) gezeigten Weise zusammengedrängt sind, im Register 13 gespeichert. Nachfolgend werden im inversen Fourier-Transformierer 17 inverse Fourier-Transformationen in einer Anzahl, die gleich der halben Anzahl von im Fourier-Transformierer 16 durchgeführten Fourier-Transformationen ist, ausgeführt und die Ergebnisse an das Register 14 gesandt. Auf ein Steuersignal der Steuereinheit 20 hin, werden durch Schieben um feste Intervalle bestimmte Längen von Sprachdaten sequentiell aus dem Register 14 herausgeholt und zur Bestimmung eines bestimmten Parameters, beispielsweise des partiellen Autokorrelationskoeffizienten, einer Spektralanalyse unterworfen. Der Koeffizient wird an das Inversfilter 19 gesandt, um dessen Charakteristik einzustellen. Ferner werden auf ein entsprechendes Steuersignal des Steuerglieds 20 hin die im Register 14 befindlichen Sprachdaten sequentiell durch das Inversfilter 19 geschickt und einer inversen Filterung unterworfen, deren Ergebnis im Register 15 gespeichert wird.

F i g. 6 zeigt ein Beispiel des konkreten Aufbaus eines Teils der Schaltung der F i g. 5, d. h. der Berechnungsschaltung 18 für den Inversfilterkoeffizienten und des Inversfilters 19. In dem Beispiel wird der partielle Autokorrelationskoeffizient unter Ausnutzung der PARCOR-Analysiertechnik, die bekannt ist (beschrieben beispielsweise in der japanischen Patentanmeldung mit Publikationsnummer 18 007/74). berechnet und die Charakteristik des Inversfilters mit dem Koeffizienten eingestellt.

In F i g. 6 bezeichnen 100 und 200 Eingangsanschlüsse, 101 bis 103 und 201 bis 203 Verzögerungsschaltungen, 111 und 112 Korrelatoren, 121, 122, 131, 132, 221, 231, und 232, Multiplizierer, 141 bis 149,151 bis 159, 241 bis 249 und 251 bis 259 Addierer, 160 ein Schieberegister und 170 eine Mittelwertberechnungsschaltung.

Die Schaltung der F i g. 6 erhält die zu analysierende Sprache am Anschluß 100. Das ankommende Signal wird in zwei Teile aufgespalten, von denen der eine auf die Verzögerungsschaltung 101 gegeben wird. Der andere Signalteil wird nochmals in drei Teile aufgespalten, die an den Korrelator 111, den Multiplizierer 131 und den Addierer 151 gehen. Das durch die Verzögerungsschaltung 101 verzögerte Signal wird in drei Teile aufgespalten, die an den Korrelator 111, den Multiplizierer 121 und den Addierer 141 gehen. Bei dem Korrelator 111 handelt es sich um eine bekannte Vorrichtung, weiche die Funktion hat, die Korrelation zwischen den beiden Eingangssignalen zu berechnen. Das Ausgangssignal dieser Vorrichtung wird als partieller Autokorrelationskoeffizient erster Ordnung 181 (PARCO-Koeffizient) vorgesehen und außerdem als das eine Eingangssignal sowohl für den Multiplizierer 121 als auch für den Multiplizierer 131 verwendet.

Der partielle Autokorrelationskoeffizient 181 wird im Schieberegister 160 gespeichert. Die Ausgangssignale der Multiplizierer 121 und 131 sind Vorwärts- und Rückwärts-Voraussagewerte erster Ordnung. Diese werden auf den Addierer 151 bzw. 141 gegeben, um ihre

ίο Differenzen bezüglich des Eingangssignals am Eingangsanschluß 100 und des Ausgangssignals der Verzögerungsschaltung 101 zn gewinnen. Als Ergebnis erhält man Vorwärts- und Rückwärtsvoraussagesignaldifferenzen erster Ordnung, die Eingangssignale des Korrelators 112 und der Verzögerungsschaltung 102 werden. Danach werden in der gleichen Weise partielle Autokorrelationskoeffizienten 182 bis 189 der zweiten bis neunten Ordnung und ein Vorwärtsvoraussagefehler neunter Ordnung analysiert und herausgezogen. Da die Sprachdaten in Abtastintervallen aufeinanderfolgend auf den Anschluß 100 gelangen, werden die partiellen Autokorrelationskoeffizienten 181 bis 189 zu jedem Zeitpunkt berechnet und im Schieberegister 160 gespeichert. Wenn die Zeitdauer des Registerschicbens des Schieberegisters 160 vorweg gleich dem Abtastintervall gemacht wird, sind die partiellen Autokorrelationskoeffizienten der gesamten Sprache im Schieberegister 160 an den entsprechenden Ordnungen im Zeitpunkt der Beendigung der gesamten Sprache gespeichert. Die Mittelwertberechnungsschaltung 170 bildet die Mittel der partiellen Autokorrelationskoeffizienten der entsprechenden Ordnungen nach Beendigung der Analyse der gesamten Sprache. Die Mittelwerte werden im Inversfilter als die partiellen Autokorrelationskoeffizienten der einzelnen Ordnungen eingestellt und beibehalten, während der Inversfilterungsvorgang durchgeführt wird.

Das Inversfilter hat den gleichen Aufbau wie dasjenige eines Spektrumanalysierteils, d. h., des PAR-COR-Analysierfilters in der Inversfilterkoeffizienteii-Berechnungsschaltung, und unterscheidet sich nur darin, daß die im Spektrumanalysierteil berechneten partiellen Autokorrelationskoeffizienten vorweg eingestellt werden. Es wird zu einem Filter, welches die inverse Charakteristik zum gesamten Mittelrngsspektrum der analysierten Sprache hat. Im Register 14 vorhandene Sprachdaten, wie sie über den Eingangsanschluß 200 erhalten werden, werden durch obiges Inversfilter gefiltert.

F i g. 7 zeigt ein Beispiel für den konkreten Aufbau der Erkennungseinheit 6 der Fig.3. 15 bezeichnet ein Register, das demjenigen mit dem gleichen Bezugszeichen in F i g. 5 entspricht, 21 ein Pufferregister, 22 eine Parameterextrahierschaltung, 23 ein Parameterregister, 24 einen Standardparameterspeicher, 25 eine Abstandsberechnungsschaltung, 26 ein Abstandsregister, 27 eine Minimalwertberechnungsschakung, und 28 eine Steuereinheit.
Bei einem solchen Aufbau werden die Sprachdaten nach Durchlaufen des Inversfilters im Register 15 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden feste Längen von Sprachdaten sequentiell in festen Abständen herausgeholt und über das Pufferregister 21 auf die Parameterextrahierschaltung 22 gegeben.

Diese Parameterextrahierschaltung 22 zieht einen für die Erkennung notwendigen Parameter heraus. Beispielsweise kann eine Analysiereinheit, wie sie in der vorgenannten japanischen Patentanmeldung, Publika-

Σ -V, -.V₁,

Po Pi Pip- ι

P] Pn Pw₊ 2

PlP- ι Po

A₁ = 2ja-,iff, +, .

ti ⁹

SS tionsnummer 18 007/74 beschrieben wurde, verwendet

werden, wobei der partielle Autokorrelationskoeffizient als Parameter herausgezogen wird. Er wird auf das p, =

Parameterregister 23 gegeben.

Andererseits werden vorher berechnete und regi- > strierte Parametersätze (im Falle der Worterkennung Parameterzei'fclgen entsprechender Wörter und im Falle der .Sprechererkennung Parameterzeitfolgen entsprechender Sprecher) im Standardparameterspeicher 24 gespeichert. Auf ein Steuersignal der Steuereinheit 28 hin werden die gespeicherten Inhalte aufeinanderfolgend herausgeholt und auf die Abstandsberechnungsschaltung 25 gegeben. In der Abstandsberechnungsschaltung 25 werden die vom Parameterregister 23 gelieferten Charakteristikparameter und die vom Standardparameterspeicher 24 gelieferten Standardparameter miteinander verglichen und die Ähnlichkeit zwischen ihnen, d. h. der Abstand, berechnet. Das Resultat wird an das Abstandsregister 26 gesandt. Als Abstandsberechnungsschaltung 25 kann beispielsweise eine in der japanischen Patentanmeldung, Publikationsnummer 30 242/72, beschriebene Technik verwendet werden. Wenn die Abstände von allen Standardparametern berechnet sind, werden alle im Abstandsregister 26 vorhandenen Abstände auf ein Signal der Steuereinheit 28 hin zur Gewinnung des Minimalwerts der Abstände an die Minimalwertberechnungsschaltung 27 gesandt. Eine für den Standardparameter repräsentative Kategorie bzw. Gruppe, die den Minimalwert angibt, wird als Ausgangssignal geliefert. Die Steuereinheiten 20 und 28 in den Fig.5 und 7 können unter Verwendung bekannter Zuordner etc. aufgebaut sein.

Fig. 8 zeigt ein weiteres Beispiel eines konkreten Aufbaus für die Erkennungseinheit 6 der Fig.3. In diesem Beispiel wird ein Mikrocomputer verwendet.
In Fig.8 bezeichnet 30 einen Random-Access-Spei-

C'hcr, ifi welchem die Von def VürvcTäruciiüngSVürnCii-

tung kommenden Sprachdaten gespeichert werden, 31 einen Datenbus, 32 eine Recheneinheit, 33 eine Steuereinheit, welche aus einem Zuordner, einem Mikrobefehlsspeicher oder dergleichen besteht, 34 einen Multiplizierer, 35 eine Resultatanzeigeschaltung und 36 einen Parameterspeicher für Standardsprachen. ~t "*' ^{+ l}

Im folgenden wird ein Erkennungsverarbeitungsver- 's», ⁼ TTHF

fahren, welches mit dem Mikrocomputer eines solchen -, Aufbaus durchgeführt wird, beschrieben.

Es ist bekannt, daß bei Analysierung von Sprachen mit der vorgenannten PARCOR-Technik und Einschätzung der Ähnlichkeit zwischen den Sprachen verschiedene Arten von Parametern aus den Autokorreiations > <> koeffizienten von Wellenformen gewonnen werden. Dementsprechend kann der vorgenannte partielle Autokorrelationskoeffizient A- und ein linearer Voraussagekoeffizient ex. aus dem Autokorrelationskoeffizicr. ten ρ berechnet werden.

Es ist ebenfalls bekannt, daß die Einschätzung der Ähnlichkeit von Spektren von Wellenformen, die durch den linearen Voraussagekoffizienten α oder den partiellen Autokorrelationskoeffizienten k ausgedrückt sind, aus dem Autokorrelationskoeffizienten ρ und dem linearen Voraussagekoeffizienten λ gewonnen wird.

Bei einer solchen Prozedur kann die Verarbeitung durch das Inversfilter auch in der folgenden Weise verwirklicht werden.

Für den Autokorrelationskoeffizienten ρ_τ über die tn gesamte Sprache N einer Sprachwellenfonu Xj, die im Random-Access-Speicher 30 gespeichert ist, gilt nun die folgende Gleichung (1):

(D

wobei IP die Ordnung des Inversfilters und r die Ordnung des Autokorrelationskoeffizienten bezeichnet. Aus dieser Gleichung berechnet sich der lineare Voraussagekoeffizient α, der für das ganze Spektrum repräsentativ ist, aus der nach der in bekannter Weise erfolgenden gleichzeitigen Lösung linearer Gleichungen, die durch den folgenden Zusammenhang (2) gegeben sind:

a,p_

Pi
Pj

(2)

Der inverse Spektralparameter Aj ist nach folgender Gleichung (3) definiert:

(3)

Andererseits wird, was den Fall anbelangt, wo immer M Abtastproben (samples) (I Satz) herausgeholt werden, während die Sprachwellenformen alle T Sekunden in den Speicher 30 geschoben werden, der Autokorrelationskoeffizient dieses Teils betrachtet.

Sei K^ der Autokorrelationskoeffizient von M Abtastwellenformwerten, die im K-ttn Zyklus (im folgenden ν/ί-ter Satz«) herausgeholt werden, dann wird dieser durch die folgende Gleichung (4) ähnlich dem Fall der vorstehenden Gesamtsprache wiedergegeben:

M-IP
V γ

(4)

<-· ^ΛΚΤ+ 1
I- I

In der aus den Gleichungen ;·1, und (3) gewonnenen folgenden Gleichung (5) ist K_n der Autokorrelationskoeffizient vcr Sprache des AT-ten Satzes, der das Inversfilter mit der zum Spektrum der Gesamtsprache inversen Charakteristik durchlaufen hat:

IP

_fJ = A_aK_Pl+

(5)

K₇ dieser Gleichung (5) ist der Autokorrelationskoeffizient der Sprachwellenform, die das InversFiIter durchlaufen hat Wenn das Spektrum des Inversfilters und das Spektrum der eingegebenen Sprachwellenform in vollkommener Weise in zueinander entgegengesetzten Polaritäten sind, wird das Spektrum der Ausgangswellenform des Inversfilters weiß (sprachfreier Schall) und der Autokorreiationskoeffizient K₇ zum Minimum. Das heißt, durch Anwendung dieser Methode kann das Ausmaß von Koinzidenz zwischen den Spektren zweier Sprachwellenformen abgeschätzt bzw. berechnet wer-

ien. Die Methode der Berechnung wird nun konkreter erläutert.

Der Autokorrelationskoeffizient der ersten Sprache der beiden Sprachen wird mit K₁ (1) unci der Autokorrelationskoeffizient der zweiten Sprache mit K'_r(2) bezeichnet (K der ersten Sprache und K der zweiten Sprache stimmen überein, wenn man sie in linearer Beziehung mit der Zeit berechnet, sie stimmen aber nicht überein bei der dynamischen Programrnierungsanpassung (dynamic programming (DP) matching) etc., bei welcher eine nicht lineare Zeitbasis herangezogen wird). Ebenso werden die Koeffizienten des inversen Spektrums, die man daraus erhält mit K_A(\) und ΚΆ(2) bezeichnet. Dann wird die Ähnlichkeit d zwischen dem K-ten und dem K'-ten Satz der beiden Sprachen durch die folgende Gleichung (6) ausgedrückt.

10

15

Σ K_Aj(\) K'_fi(2))

VJ

K_Aj(2) K_tJ(2))

(6)

(Κ'_Αο(2)Κ_η(\) + 2Σ K-_Aj{2) K (I))

Z k_Aj{\) K_yj(\))

Je kleiner der Wert von c/ist. desto ähnlicher sind die Spektren der beiden Sprachen. Wenn die Spektren der beiden Sprachwellenformen vollkommen übereinstimmen, werden die betreffenden Nenner und Zähler des ersten und des zweiten Ausdrucks der Gleichung (6) einander gleich und d=2. Im allgemeinen stimmen die beiden nicht überein, und in einem solchen Fall der Nichtübereinstimmung wird der Zähler größer als der Nenner und der Wert von c/groß.

die Abschätzung, die auf der Synthese der Ausmaße von Übereinstimmung der partiellen Autokorrelationskoeffizienten, wie im Beispiel der F i g. 7, basiert. Der Grund dafür liegt darin, daß der Einfluß der Arbeitsgenauigkeit hinsichtlich der Auswertung der partiellen \uiokorrelaüonskoeffizienten etc. in den einzelnen Koeffizienten erscheint, so daß, obwohl der Fehler insgesamt klein ist, in den einzelnen Koeffizienten in manchen Fällen große Fehler entstehen.

Bei Verwirklichung der vorstehenden Aufbereitung bzw. Verarbeitung mit der Vorrichtung der Fig. 8 werden die im Random-Access-Speicher 30 gespeicherten Sprachwellenformen für jeden Satz sequentiell herausgeholt und über den Datenbus 31 auf die Recheneinheit 32 gegeben. Auf einen Befehl der Steuereinheit 33 hin führt die Recheneinheit 32 zusammen mit dem Multiplizierer 34 die folgenden Operationen durch. Zunächst wird entsprechend Gleichung (4) der Autokorrelationskoeffizient K_e berechnet. Unter Verwendung dieses Koeffizienten wird der lineare Voraussagekoeffizient Κ» gemäß Gleichung (2) berechnet. Nachfolgend wird unter Verwendung des linearen Voraussagekoeffizienten Κ_Λ der Inverssp^ktrumparameter K_A nach Gleichung (3) berechnet. Aus dem berechneten Parameter wird der Autokorrelationskoeffizient Ky der Sprachwellenform, die das Inversfilter durchlaufen hat, nach Gleichung (5) berechnet. Ferner werden die im Standardparameterspeicher 36 gespeicherten Standardparameter K'_A und K\ sequentiell ausgelesen. Unter Verwendung derselben und der in obiger Weise berechneten Werte K_A und K₁ wird die Ähnlichkeit d nach Gleichung (6) ermittelt. Abhängig von der Größe der Ähnlichkeit wird die Spracherkennungsverarbeitung durchgeführt.

Die Wirkungen der oben beschriebenen Ausführungsform der Erfindung werden nun am Beispiel der Sprecheridentifikation, gerichtet auf Telefonsprache, ausgeführt.

In diesem Beispiel wurde die Abschätzung unter

20

25

30

Es versteht sich, daß im Falle der Anwendung der 4o Verwendung von Sprachen durchgeführt, die über

Ferngesprächsleitungen von zwei verschiedenen Fernämtern übertragen und an einem dritten Platz aufgezeichnet wurden. Wenn Sprechererkcr.nung mit den Charakteristikparametern in Form der partiellen

oben beschriebenen Prozedur das Inversfilter ohne weiteres in der Form des Autokorrelationskoeffizienten erhalten werden kann, ohne es in dem Wellenformbereich durchzuführen. In diesem Fall erhält man im Zuge

der Verarbeitung einen linearen Voraussagekoeffizien- 45 Autokorrelationskoeffizienten unter Verwendung der in ten (auch »Regressionskoeffizient« (»regression coeffi- F i g. 7 gezeigten Erkennungseinheit durchgeführt wurcient«) genannt) k*, welcher eine Art von linearem de, betrug der Sprecheridentifikationsprozentsatz (der Voraussageparameter ist. Es ist selbstverständlich, daß Prozentsatz korrekter Antworten im Zeitpunkt, wenn der Wert des Koeffizienten K_1x ausreichend stabil sein die Entscheidung auf der Basis eines Entscheidungsmuß. Insbesondere gewinnt man das Resultat, das man 50 Schwellenwerts durchgeführt wird, der so eingestellt ist, durch indirektes Durchlaufenlassen der Sprachwellen- daß der Anteil, zu dem die Sprache einer bestimmten form durch das Inversfilter erhält, in Form des Person als die einer anderen betrachtet und irrtümlich Autokorrelationskoeffizienten ky, so daß der Einfluß der zurückgewiesen wird, gleich dem Anteil wird, zu dem Stabilität des Koeffizienten groß ist. die Sprache eines anderen irrtümlich als diejenige der

Ky₀ ist der Autckorrelationskoeffizient 0. Ordnung 55 bestimmten Person betrachtet und akzeptiert wird) und stellt das Leistungsspektrum der Ausgangswellenform des Inversfilters dar. Wenn daher der gewonnene
lineare Voraussagekoeffizient K_x. instabil ist, nimmt er
einen negativen Wert an. was physikalisch unmöglich
ist Selbst in einem solchen Fall erhält man einen sehr 60
stabilen Koeffizienten K_x durch Durchführung obiger
Verarbeitung, mit dem Ergebnis, daß man eine
hervorragende Erkennung erzielt Mit obiger Methode

der Berechnung, welche die Voraussagefehlerkorrela- _ _

tion der Ausgangswellenform (Voraussagefehlerwelle), 65 Prozentsatz von ungefähr 90 Prozent mit der trkendie dem Inversspektrumparameter unterworfen worden nung gemäß der Erfindung nach F i g. 3 erreicht wurde, ist, ausnützt, wird das Ausmaß der Koinzidenz des In Anbetracht der Tatsache, daß der Identifikationsprogesamten Spektrums abgeschätzt Dies ist stabiler als zentsatz bei der Sprecheridentifikation wesentlich und

p )

ungefähr 65 Prozent nach dem bekannten Erkennungsverfahren gemäß Fig. 1, während sie auf 78 Prozent nach der erfindungsgemäßen Erkennung entsprechend F i g. 3 stieg.

Wenn die Voraussagefehlerkorrelation für die Identifikation unter Heranziehung der Erkennungseinheit der F i g. 8 verwendet wurde, betrug der Sprecheridentifikationsprozentsatz ungefähr 75 Prozent mit der bekannten Erkennung der Fig. 1, während ein Identifikations-

grundlegend verschieden von demjenigen der phonetischen Erkennung ist, daß der Wert von 100 Prozent niemals garantiert ist und daß der Prozentsatz ungefähr 95 Prozent selbst unter idealen Bedingungen ohne Störungen und Schaltkreisverzerrungen ist, kann der oben genannte Identifikationsprozentsatz von 90 Prozent als epochemachend bezeichnet werden.

Es ist möglich, einen Mikrocomputer oder dergleichen anstelle des Fourier-Transformierers, der Bandauswahlschaltung und des inversen Fourier-Transformierers in Fig.3 zu verwenden und die Operationen der Vorrichtungen mit einem Programm durchzuführen.

Ferner sind die Abtastfrequenz, das Telefonübertragungsband etc. nicht auf die oben angeführten Werte beschränkt, sondern können irgendwelche beliebige Werte annehmen.

Wie oben ausgeführt, kann durch die Erfindung die Stabilität des InversFilters verbessert, die Qualitätsverschlechterung von Sprachinformation innerhalb des Übertragungsbands verhindejt und der Einfluß von Störsignalen außerhalb des Übertragungsbands beseitigt werden, so daß die Spracherkennung mit ausreichend hoher Exaktheit durchgeführt werden kann.

Hierzu 6 Blatt Zeichnungen

Claims

Patentansprüche:

1. Vorverarbeitungsverfahren für eine Spracherkennungsvorrichtung, die eine Eingangsstufe zum Empfang eines über ein Übertragungssystem mit vorgegebenem Übertragungsband übertragenen Sprachsignals, eine Vorverarbeitungsstufe mit einem Inversfilter zur Vorverarbeitung des empfangenen Sprachsignals und eine Erkennungsstufe zur Erkennung des von der Vorverarbeitungsstufe abgegebenen Sprachsignals aufweist, gekennzeichnet durch folgende Verfahrensschritte: