DE3929481C2

DE3929481C2 -

Info

Publication number: DE3929481C2
Application number: DE19893929481
Authority: DE
Inventors: Akira Musashino Tokio/Tokyo Jp Ichikawa; Yoshiaki Kawasaki Kanagawa Jp Asakawa; Akio Higashimurayama Tokio/Tokyo Jp Amano; Nobuo Pittsburgh Pa. Us Hataoka
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-09-07
Filing date: 1989-09-05
Publication date: 1991-07-04
Also published as: DE3929481A1; JPH0272398A

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen bzw. zur Rauschverringerung in akustischen Signalen der im Oberbegriff des Patentanspruchs 1 bzw. 6 beschriebenen Art. Ein solches Verfahren und eine solche Vorrichtung ist aus der EP 01 26 420 A1 bekannt.

Es sind Verfahren zur Verbesserung des Rauschabstandes bei Sprachsignalen bekannt, bei denen die Frequenzeigenschaften des Rauschens vorab untersucht werden, um die Rauschkomponente dann vom Sprachsignal subtrahieren zu können. Diese Verfahren beruhen jedoch auf der falschen Annahme, daß das Hintergrundrauschen (das Hintergrundgeräusch) gleichmäßig ist. Es wurde auch bereits die Verwendung eines sogenannten neuronalen Netzwerkes diskutiert (Proceedings of ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13, Seiten 253 bis 294, Mai 1988).

Das aus der letztgenannten Druckschrift bekannte System zeigt eine verbesserte Leistungsfähigkeit und hat einen erhöhten Rauschabstand, es hat sich jedoch herausgestellt, daß dabei die Verständlichkeit herabgesetzt ist.

Die Bezeichnung "neuronales Netzwerk" schließt hier zwei Arten solcher Netzwerke ein. Bei der ersten Art besteht das neuronale Netzwerk aus gleichwertigen parallel verarbeitenden Elementen, die untereinander entsprechend einer dynamisch selbstorganisierenden Programmierung auf eine nichtüberwachte, das heißt selbstlernende Weise verbunden werden, unabhängig davon, ob ein "Lehrer" vorhanden ist oder nicht. Bei der zweiten Art besteht das Netzwerk aus gleichwertigen, parallel verarbeitenden Elementen, die vorab durch Lernen fest miteinander verbunden werden. Ein solches Netzwerk kann dann später nichts mehr "lernen".

Die menschliche Sprache wird aus dem Mund als eine Folge von Verdichtungen und Verdünnungen der Luftmoleküle abgegeben. Die sprachbildenden Organe, über die die Sprachinformationen ausgegeben werden, sind bei jedem Menschen anders. Durch die physikalischen Unterschiede zwischen den einzelnen Menschen weichen die physikalischen Eigenschaften der Sprachsignale, wenn sie als physikalische Signale betrachtet werden, erheblich voneinander ab. Darüber hinaus wird von den verschiedensten Schallquellen aus den verschiedensten Richtungen Rauschen oder ein Hintergrundgeräusch erzeugt. Die Abweichungen in den physikalischen Eigenschaften von Sprachsignalen weisen daher keine Gemeinsamkeiten auf. Bei hohem Geräuschpegel wird darüber hinaus die Stimme im allgemeinen angehoben, um das Rauschen zu übertönen, wodurch die Sprache von ihrer gewöhnlichen Form abweicht.

Die eingangs genannte Druckschrift beschreibt ein Spracherkennungssystem mit einer Anzahl von Mikrofonen und daran angeschlossenen Signalverarbeitungseinheiten. Die Anzahl der Mikrofone dient dabei ausschließlich dazu, zur Verbesserung der Spracherkennung die von Mund, Nase und Kehle des Benutzers abgegebenen Laute getrennt zu erfassen, wozu die Mikrofone unmittelbar vor dem Gesicht des Benutzers angeordnet werden. Die Verarbeitung der Signale aus den Mikrofonen erfolgt in der üblichen, im wesentlichen seriellen Art.

Diese Anordnung hat nicht nur den Nachteil, daß die Mikrofone sehr genau plaziert werden müssen, sondern insbesondere auch den Nachteil, daß Hintergrundgeräusche nur sehr schlecht von der Sprache abgetrennt werden können, wodurch ab einem bestimmten Pegel an Hintergrundgeräuschen keine Spracherkennung mehr möglich ist.

Aus dem Artikel "Wie können Computer lernen" von Manfred Weick in der DE-Zeitschrift "Elektronik", Heft 8, 15.04.1988, Seiten 102 bis 113 ist es bekannt, zur Spracherkennung neuronale Netze einzusetzen. Einzelheiten über den Aufbau und die Wirkungsweise der neuronalen Netze bei einer solchen Anwendung sind jedoch nicht angegeben. Lediglich allgemein beschrieben ist das sogenannte "Back-Propagation"-Lernverfahren für neuronale Netzwerke mit einer Fehlerminimierung zwischen einem Eingangssignal und einem entsprechenden, gewünschten Ausgangssignal bei Durchlaufen des Netzwerkes vom Ausgang zum Eingang, das heißt in Rückwärtsrichtung.

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Vorrichtung zu schaffen, mit dem bzw. mit der durch Unterdrückung der Hintergrundgeräusche eine verbesserte Spracherkennung möglich ist, das heißt mit dem bzw. mit der Sprachdaten mit hoher Verständlichkeit und Klarheit erhalten werden können.

Diese Aufgabe wird erfindungsgemäß mit den im kennzeichnenden Teil des Patentanspruchs 1 bzw. 6 angegebenen Merkmalen gelöst.

Dabei ist vorgesehen, die Gewichtskoeffizienten des neuronalen Netzwerkes mittels eines reinen Sprachsignals vorab zu bestimmen, und insbesondere ist vorgesehen, die Anzahl Neuronen in der Eingangsschicht des Netzwerkes in zwei (oder mehr) Sätze oder Gruppen aufzuteilen, denen jeweils über eigene Mikrofone akustische Signale zugeführt werden. Es erhält somit jeder Satz von Neuronen in der Eingangsschicht über eigene Mikrofone seine eigenen Signale, die unabhängig von den Signalen sind, die den anderen Neuronengruppen in der Eingangsschicht zugeführt werden. Obwohl bereits die nachfolgende (zweite) Schicht von Neuronen wieder mit allen Neuronen der Eingangsschicht verknüpft ist, tritt dabei der Effekt auf, daß das neuronale Netzwerk auch Parallax-Informationen beim "Lernen" abspeichert und dann verwendet, die durch die räumlich getrennte Anordnung der Mikrofone für die einzelnen Neuronengruppen der Eingangsschicht gewonnen werden.

Es ist dabei ohne weiteres möglich, sowohl für den Standort des Benutzers als auch die Position der Mikrofone einen gewissen räumlichen Bereich vorzusehen. Der Benutzer darf sich somit bezüglich der Mikrofone auch bewegen.

Die in den Patentansprüchen 1 und 6 beschriebene Lösung erlaubt demnach eine sehr gute Spracherkennung auch bei starken Hintergrundgeräuschen. Die Unteransprüche 2 bis 5 sowie 7 und 8 enthalten vorteilhafte Ausgestaltungen der erfindungsgemäßen Vorrichtung bzw. des entsprechenden Verfahrens.

Die Erfindung wird im folgenden anhand der Zeichnung näher erläutert. Es zeigt

Fig. 1 den Aufbau eines Filters zur Verbesserung des Rauschabstandes mit einer Darstellung des Lernprozesses, der damit verbunden ist;

Fig. 2 eine Vorrichtung, bei der der Filter der Fig. 1 verwendet wird; und

Fig. 3 Beispiele zur Verwendung der Erfindung.

In der Fig. 1 ist die Anordnung eines Filters zur Verbesserung des Rauschabstandes, der ein neuronales Netzwerk enthält, dargestellt. Die Fig. 2 zeigt die Anwendung dieses Filters bei einem filternden und lernenden System.

Das in der Fig. 1 gezeigte neuronale Netzwerk besteht aus einer Anzahl von "Neuronen", die in einer ersten bis vierten Schicht 114, 117, 119 und 121 angeordnet sind. Wie es allgemein bekannt ist, können die einzelnen Neuronen durch Verarbeitungseinheiten gebildet werden, die eine Bewertung oder Gewichtung der Signale an ihrem Eingang vornehmen, oder sie können durch eine herkömmliche Von-Neuman-Maschine emuliert werden. Zum Aufbau des Netzwerkes können selbstverständlich auch mehr oder weniger Neuronen und/oder Schichten bzw. Ebenen wie in der Fig. 1 verwendet werden.

Wie in der Fig. 2 gezeigt, werden Sprachsignale 101 und Rauschsignale 102, die einer Anzahl von Mikrofonen 201 eingegeben werden, durch einen multiplexenden A/D-Konverter 202 digitalisiert und dann zu einem Schalter 203 geführt. Im Lernmodus wird das digitalisierte Signal vom Schalter 203 zu einem internen Bus 204 geführt und unter der Steuerung eines Mikroprozesses (µ-CPU) 205 in einem Speicher 206 gespeichert, um entsprechend der im Mikroprozessor 205 enthaltenen Prozeduren das neuronale Netz aufzubauen. Das Ergebnis des Lernens wird in der Form von Gewichtungsfaktoren für die Verbindungen zwischen den Elementen des neuronalen Netzes erhalten.

Jeder so bestimmte Gewichtungsfaktor wird über einen Signalleitung 207 zu einem digitalen Signalprozessor (DSP) 208 gegeben, der ein neuronales Netzwerk zur Rauschfilterung enthält. Der digitale Signalprozessor 208 stellt somit ein neuronales Netzwerk zur Rauschfilterung dar, bei dem die Gewichtungen bereits festgelegt ("gelernt") sind. Wenn das System als Rauschfilter verwendet wird, wird das Eingangs-Sprachsignal 101 (und das Rauschsignal 102) direkt über die Mikrofone 201, den A/D-Konverter 202 und den Schalter 203 in den Signalprozessor 208 eingegeben, um ein Signal 209 mit verbessertem Rauschabstand am Ausgang des Prozesses 208 zu erhalten. Wenn die Anordnung nur als Rauschfilter verwendet wird, brauchen die zum Lernen benötigten Elemente natürlich nicht immer vorhanden zu sein.

Die Arbeitsweise dieses Rauschfilters und die Lernprozedur wird anhand der Fig. 1 beschrieben. Beim Lernen können einige der in der Fig. 1 gezeigten Teile durch virtuelle Teile des Mikroprozessors 205 und des Speichers 206 der Fig. 2 realisiert werden, während sich bei der Ausführung einer tatsächlichen Operation nur diejenigen Teile im Signalprozessor 208 befinden, die den in den Fig. 1 gezeigten Filter bilden. Es ist natürlich auch möglich, daß sich die Mikrofone 201 und der A/D-Konverter 202 an einem anderen Ort befinden und über eine digitale Leitung mit dem Signalprozessor 208 verbunden sind, der dann allein die Vorrichtung bildet.

Zur Vereinfachung erfolgt die Beschreibung mit Bezug auf eine Anordnung, die zwei Eingangssysteme beinhaltet. Die Anordnung kann jedoch auf die gleiche Weise auch drei oder mehr Eingangssystem beinhalten.

Bei der Darstellung der Fig. 1 ist angenommen, daß das Ausgangssignal des q-ten Neuron-Elementes in der p-ten Schicht gleich O_p,q und das Ausgangssignal des r-ten Elementes in der (p-1)-ten Schicht gleich O_p-1,r ist. Zur Vereinfachung der Beschreibung wird weiter angenommen, daß die Übertragungseigenschaft zwischen dem Eingang x und dem Ausgang y für alle Elemente gleich ist und dargestellt wird durch

y = f(x). (1)

Dann gilt folgendes:

I_p,q = Σw_p-1,q,r(O)_p-1,r (2)

O_p,q = f(I_p,q). (3)

Aus der Gleichung (2) ist ersichtlich, daß die Verarbeitung viele Berechnungen zur Bildung der Summe von Produkten beinhaltet, die der Signalprozessor ausführt. Das neuronale Netzwerk beinhaltet vorzugsweise eine große Anzahl von Neuron-Elementen, die die durch die Gleichung (3) ausgedrückte Eigenschaften haben und die miteinander in einer hierarchischen Struktur verbunden sind. Es ist anzumerken, daß, obwohl das in der Fig. 1 gezeigte neuronale Netzwerk aus vier Schichten oder Ebenen besteht, die Anzahl der Schichten nicht notwendigerweise auf vier begrenzt ist.

Das Gemisch aus den Sprachsignalen 101 und dem Rauschen 102, das über die Mikrofone 103 und 104 den A/D-Konvertern 106 und 107 zugeführt wird, wird dort in digitale Signale umgewandelt, die zu Schieberegistern 112 bzw. 113 weitergeleitet werden. Die Schieberegister 112 und 113 sind zusammen mit einem Schieberegister 124 (später noch genauer erläutert) dafür vorgesehen, aufeinanderfolgend die Daten synchron zur Abtastperiode der A/D-Konverter zu verschieben und in jeder Stufe Daten auszugeben. Die Ausgangssignale der verschiedenen Stufen der Schieberegister 112 und 113 werden dann jeweils den Elementen 115 bzw. 116 in der ersten (Eingangs-) Schicht 114 des neuronalen Netzwerkes zugeführt.

Die Ausgangssignale der Elemente 115 und 116 der ersten Schicht werden auf der Basis der durch die Gleichungen (2) und (3) ausgedrückten Beziehungen zu den Elementen 118 der zweiten Schicht 117 weitergeleitet. Das gleiche gilt für die Verbindung zwischen den Elementen 118 in der zweiten Schicht 117 und den Elementen 120 in der dritten Schicht 119 sowie der Verbindung zwischen den Elementen 120 in der dritten Schicht 119 und den Elementen 122 in der vierten (Ausgangs-) Schicht 121. Durch die Verarbeitung der Signale in den Elementen auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) dargestellt werden, werden Signale 128 mit einem verbesserten Rauschabstand an den Ausgangsanschlüssen 123 der Ausgangsschicht 121 abgegeben. Wenn das Ausgangssignal von einem der Ausgangsanschlüsse 123 als externes Ausgangssignal herausgenommen wird, wird ein Ausgangs-Sprachsignal 209 (Fig. 2) mit verbessertem Rauschabstand erhalten.

Es folgt eine Beschreibung des Lernvorganges bei dem neuronalen Netzwerk, das den Rauschfilter bildet.

Das rückwärtsschreitende Verfahren, das bei der Architektur neuronaler Netzwerke bekannt ist, wird für den Lernvorgang bei dem vorliegenden System geeignet angewendet. Ein solches rückwärtsschreitendes Verfahren ist beispielsweise in der Literaturstelle M.I.T. Press, "Parallel Distributed Processing" Band 1 (1986), Kap. 8, Seiten 318 bis 362 beschrieben.

Der Lernvorgang wird nun mit Bezug auf die Fig. 1 erläutert. Zur Vereinfachung werden einige Symbole eingeführt. Der Wert des Ausgangssignales 128 eines jeden Elementes 122 in der Ausgangsschicht 121 wird mit O₄_,i bezeichnet, der Wert des Ausgangssignales des j-ten Elementes der dritten Schicht 119 mit O₃_,j, der Wert des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117 mit O₂_,k, und ein Soll-Ausgangswert, der als Lerneingang an das i-te Element in der vierten Schicht 121 angelegt wird, mit T₄_,i. Bezüglich des Fehlersignales, das für jedes Signal im Verlauf des Rückwärtsschreitens erhalten wird, wird der Wert des Fehlersignals für das i-te Element in der vierten Schicht 121 mit δ₄_,i, der Wert des Fehlersignales für das j-te Element in der dritten Schicht 119 mit δ₃_,j, und der Wert des Fehlersignales für das k-te Element in der zweiten Schicht 117 mit δ₂_,k bezeichnet. Des weiteren wird angenommen, daß die Übertragungseigenschaften der Elemente in allen Schichten die gleichen sind und derjenigen entsprechen, die durch die Gleichung (3) ausgedrückt wird. Es sei außerdem f′ die Ableitung der Funktion f. Der Verbindungsfaktor zwischen dem i-ten Element in der Ausgangsschicht 121 und dem j-ten Element in der dritten Schicht 119 wird mit w₃_,i,j bezeichnet, und der Verbindungsfaktor zwischem dem j-ten Element in der dritten Schicht 119 und dem k-ten Element in der zweiten Schicht 117 mit w₂_,j,k.

Zum Lernen werden verschiedene Sprachtypen 101 und verschiedene Rauschtypen 102 getrennt in die Mikrofone 103, 104 und 105 eingegeben. Das in das Mikrofon 105 eingegebene Signal besteht aus einem reinen Sprachsignal, es wird für den Soll-Ausgangswert T₄_,i verwendet. Die Signale werden in den jeweiligen Speichern 109, 110 und 111 (Bereiche im Speicher 206 der Fig. 2) gespeichert. Die gespeicherte Sprache und das gespeicherte Rauschen werden in Addierern 129 und 130 addiert, um Signale zusammenzusetzen, denen ein Rauschen überlagert ist. Diese Signale werden zu den Schieberegistern 112 und 113 gegeben. Daten über das Ausmaß, in dem das Rauschen überlagert ist, und über die Kombination von Sprache und Rauschen werden für verschiedene erwartete Zustände wiederholt vorbereitet und als Lern-Eingangssignale verwendet. Bei der tatsächlichen Ausführung wird die Überlagerung durch Verwendung einer arithmetischen Funktion des Mikroprozessors 205 der Fig. 2 ausgeführt. Der Soll-Ausgangswert T₄_,i ist ein Sprachsignal, das dem Lern-Eingangssignal entspricht, und es setzt den Grad fest, bis zu dem die Sprache im Lern-Eingangssignal als Ergebnis der Verbesserung des Rauschabstandes verbessert werden soll. Das Eingangsmikrofon 105, der A/D-Konverter 108 und der Speicher 111 für den Soll-Ausgangswert T₄_,i können auch für eine Eingabe verwendet werden, das heißt als Mikrofon 103 (oder 104), D/A-Konverter 106 (oder 107) und Speicher 109 (oder 110), wie es durch die Verbindungslinie 127 gezeigt wird. Die Sprache für den Soll-Ausgangswert T₄_,i wird dem Schieberegister 124 eingegeben und die Ausgangssignale 125 aus den verschiedenen Stufen des Schieberegisters 124 werden den entsprechenden Elementen 122 in der Ausgangsschicht 121 des neuronalen Netzwerkes als Soll-Ausgangssignale 125 eingegeben.

Wenn jedem Element in der ersten Schicht 114 ein Lern-Eingangssignal (Sprache und Rauschen einander überlagert) eingegeben wird, wird auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) ausgedrückt werden, aufeinanderfolgend von jedem Element von der Eingangsschicht zur Ausgangsschicht ein Ausgangssignal erhalten. Nachdem das Ausgangssignal für jedes Element erhalten wurde, werden aufeinanderfolgend von der Ausgangsschicht 121 bis zu den unteren Schichten Fehlersignale ermittelt. Die Korrektur der Verbindungsfaktoren zwischen der p-ten Schicht und (p+1)-ten Schicht erfolgt unter Verwendung der Fehlersignale für die (p+1)-te Schicht und den Werten der Ausgangssignale in der p-ten Schicht. Im folgenden wird zur Vereinfachung nur der Vorgang zur Korrektur der Verbindungsfaktoren w₃_,i,j und w₂_,j,k erläutert. Für die folgenden Schichten wird der entsprechende Vorgang wiederholt, bis hinunter zur Eingangsschicht.

Zur Korrektur der Verbindungsfaktoren w₃_,i,j und w₂_,j,k werden den Wert O₂_,k des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117, der Wert O₃_,j des Ausgangssignales des j-ten Elementes in der dritten Schicht 119, der Wert δ₃_,i,j des Fehlersignales des j-ten Elementes in der dritten Schicht 119 und der Wert δ₄_,i des Fehlersignales des i-ten Elementes in der vierten (Ausgangs-) Schicht 121 benötigt. Die Werte für O₂_,k und O₃_,j können durch eine Vorwärtsrechnung durch Anlegen von Eingangssignalen an die erste Schicht 114 erhalten werden, wie oben beschrieben. Die Werte δ₄_,i δ₃_,j können aus den folgenden Gleichungen berechnet werden:

Als nächstes werden w₃_,i,j und w₂_,j,k korrigiert. Wenn die Korrekturwerte dabei durch Δw₃_,i,j und Δw₂_,j,k ausgedrückt werden, können diese Korrekturwerte wie folgt berechnet werden:

Δw₃_,i,j = α(δ₄_,i,) (O₃_,j) (6)

Δw₂_,k,h = α(δ₃_,i,) (O₂_,k) (7)

α kann durch experimentelles Überprüfen der Konvergenzgeschwindigkeit eingestellt werden. Die Gleichungen (6) und (7) ermöglichen eine Korrektur aller Verbindungsfaktoren zwischen der Ausgangsschicht und der dritten Schicht und zwischen der dritten und der zweiten Schicht. Die Verbindungsfaktoren zwischen der zweiten Schicht und der Eingangsschicht können auf die gleiche Weise korrigiert werden wie die Verbindungsfaktoren zwischen der dritten und der zweiten Schicht.

Auf diese Weise werden alle Verbindungsfaktoren einmal korrigiert. Mit anderen Eingangsdaten und Sollwerten (solchen, die sich von den obigen Werten bezüglich der Stimme, dem Rauschen, dem gegenseitigen Pegel und der gegenseitigen Phasenbeziehung unterscheiden) wird der obige Vorgang zur Korrektur der Verbindungsfaktoren wiederholt. Jedesmal, wenn der Vorgang wiederholt wird, wird ein Bewertungsfaktor E wie folgt ermittelt:

Die Bewertungsfaktoren werden über alle Lernmuster gemittelt. Wenn der Mittelwert kleiner als ein vorgegebener Schwellenwert wird, steht fest, daß der Lernvorgang abgeschlossen ist.

Wenn der Standort einer sprechenden Person und die Positionen der Mikrophone auf einen vorgegebenen Bereich beschränkt sind, werden die Sprachinformationen zum Lernen auch unter den entsprechenden Bedingungen eingegeben und das interne Sprachsignal unter Berücksichtigung der Pegel und der Phasenunterschiede zwischen den Mikrofonen bei dieser Anordnung erzeugt. Dadurch wird die Effektivität der Verbesserung des Rauschabstandes bedeutend erhöht. Wenn für den Standort der sprechenden Person ein gewisser Bereich erlaubt werden soll, entspricht die Lern-Eingangssprache ebenfalls diesem Bereich. Die entsprechenden Bedingungen können leicht abgeleitet werden, beispielsweise auch durch eine interne Synthetisierung auf der Basis der Grundlagen der Akustik (beispielsweise reicht es, die Verzögerung des Sprachsignales, die sich aus dem Abstand zwischen der sprechenden Person und dem Mikrofon ergibt, und das quadratische Gesetz der Abschwächung zu berücksichtigen).

Es ist anzumerken, daß es auch möglich ist, das Eingangssignal einer komplexen Fourier-Transformation oder dergleichen zu unterwerfen und es dann beispielsweise im Frequenzraum in das neuronale Netz einzugeben. In einem solchen Fall kann die Eingangsschicht für die Frequenz und die Phase oder für den Realteil und den Imaginärteil in zweidimensionaler Form vorgesehen sein. Der Ausgang kann ein Ausgangssignal im Frequenzbereich sein, das in den Wellenformbereich rücktransformiert wird. Bei diesen Verfahren wird eine der bekannten Raumprojektionstransformationen und eine entsprechende inverse Transformation benötigt.

Einige Anwendungen des vorstehend beschriebenen Filters sind in der Fig. 3 dargestellt.

Die Spracherkennung kann beispielsweise dadurch verbessert werden, daß ein gemäß der vorstehenden Beschreibung aufgebauter Rauschfilter 301 vor einer Spracherkennungsvorrichtung 302 angeordnet wird, um daraus ein verbessertes Ausgangssignal 303 zu erhalten.

Der Rauschfilter 301 kann auch einer Sprachkodiervorrichtung 304 vorgeschaltet werden, wodurch an dessen Ausgang 305 eine kodierte Sprache erhalten wird, die leicht zu erkennen ist, so daß auch bei einem sehr hohen Geräuschpegel eine Sprachverbindung möglich ist.

Der Rauschfilter 301 kann schließlich auch vor einem gewöhnlichen Sprachanalysegerät 306 angeordnet werden, wodurch es möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel festzustellen, wenn beispielsweise von einem Menschen die Stimme angehoben wird, um die Hintergrundgeräusche zu übertönen, wodurch die Sprache von ihrer üblichen Form abweicht.

Der bei dem erfindungsgemäßen Verfahren bzw. der Vorrichtung verwendete Sprachdatenfilter weist somit eine Anzahl von Mikrofonen auf, die im Abstand voneinander angeordnet sind. Der auf die Mikrofone einwirkende Schall wird in nachgeschalteten A/D-Konverten in ein digitales serielles Signal umgewandelt, das ein Eingangssignal für ein neuronales Netzwerk bildet. Das neuronale Netzwerk blendet Hintergrundgeräusche aus, wobei teilweise Daten verwendet werden, die aus den Parallelax-Informationen erhalten werden, die durch die versetzte Anordnung der Mikrofone gewonnen werden. Die aus dem neuronalen Netzwerk erhaltenen Daten werden dann zu einem digitalen Signalprozessor übertragen, um das Rauschen herauszufiltern.

Claims

1. Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen, mit

- eine Anzahl von räumlich getrennt angeordneten Wandlern (103, 104, 105; 201) zum Erzeugen einer Anzahl von elektrischen Sprachsignalen, die dem auf die Wandler einwirkenden Schall entsprechen;

gekennzeichnet durch

- ein neuronales Netzwerk mit einer Anzahl von Schichten (114, 117, 119, 121), einschließlich einer Eingangsschicht (114) und einer Ausgangsschicht (121), wobei jede Schicht aus einer Anzahl von Neuron-Elementen (115, 116; 118; 120; 122) besteht;
- - wobei vorab durch selektives Anlegen eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und durch Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen,
- durch eine erste Übermittlungseinrichtung (106, 112), um das elektrische Sprachsignal von einem ersten (103) der Wandler zu jedem Element (115) eines ersten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen; und
- durch eine zweite Übermittlungseinrichtung (107, 113), um das elektrische Sprachsignal von einem zweiten (104) der Wandler zu jedem Element (116) eines zweiten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen.

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß jeder der Wandler (103, 104, 105; 201) ein analoges elektrisches Sprachsignal erzeugt, und daß die erste und die zweite Übermittlungseinrichtung jeweils eine Einrichtung (106; 107) zur Umwandlung des analogen elektrischen Sprachsignales in ein erstes bzw. zweites serielles digitales Sprachsignal enthält.

3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die erste und die zweite Übermittlungseinrichtung jeweils ein Schieberegister (112; 113) zum Umwandeln der ersten bzw. zweiten seriellen digitalen Signale in eine entsprechende erste bzw. zweite Serie von Ausgangssignalen aufweisen, wobei die Ausgangssignale der ersten und zweiten Serien jeweils das Eingangssignal für ein Neuron-Element (115; 116) des ersten und zweiten Satzes der Eingangsschicht (114) bilden.

4. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine Einrichtung zur Ausführung einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.

5. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine Anzahl N zusätzlicher räumlicher getrennter Wandler zur Erzeugung von elektrischen Sprachsignalen, und durch N zusätzliche Übermittlungseinrichtungen zum Übertragen der elektrischen Sprachsignale zu einem N-ten Satz von Neuron-Elementen in der Eingangsschicht des neuronalen Netzes.

6. Verfahren zur Rauschverringerung in akustischen Signalen, mit den Verfahrensschritten

(a) des Aufnehmens von Schallwellen aus einer Anzahl von Positionen; und
(b) des Erzeugens einer Anzahl von elektrischen Schallsignalen, die den Schallwellen von jeder der Positionen entsprechen;

gekennzeichnet durch die Schritte

(c) des Übertragens der elektrischen Schallsignale jeweils zu einem ersten und zweiten Satz von Neuron-Elementen (115; 116) in einer Eingangsschicht (114) eines neuronalen Netzwerkes, wobei vorab durch das selektive Anlegens eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und das Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten bestimmt werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen;
(d) des Berechnens eines Ausgangssignales in dem neuronalen Netzwerk, das von den elektrischen Schallsignalen am ersten und zweiten Satz von Neutronen abgeleitet wird; und
(e) des Abgebens der Ausgangssignale von einer Ausgangsschicht (121) der Neuronen des neuronalen Netzwerkes.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Verfahrensschritt (b) das Erzeugen einer Anzahl analoger elektrischer Sprachsignale und das Umwandeln der analogen elektrischen Sprachsignale in eine entsprechende Anzahl serieller digitalisierter Sprachsignale umfaßt; und daß der Verfahrensschritt (c) die Übermittlung jedes der digitalen Sprachsignale zu dem entsprechenden Satz von Neuron-Elementen (115; 116) der Eingangsschicht (114) des neuronalen Netzwerkes beinhaltet.

8. Verfahren nach Anspruch 6, gekennzeichnet durch den weiteren Verfahrensschritt des Ausführens einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.