DE3929481C2 - - Google Patents

Info

Publication number
DE3929481C2
DE3929481C2 DE19893929481 DE3929481A DE3929481C2 DE 3929481 C2 DE3929481 C2 DE 3929481C2 DE 19893929481 DE19893929481 DE 19893929481 DE 3929481 A DE3929481 A DE 3929481A DE 3929481 C2 DE3929481 C2 DE 3929481C2
Authority
DE
Germany
Prior art keywords
signals
neural network
signal
layer
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE19893929481
Other languages
English (en)
Other versions
DE3929481A1 (de
Inventor
Akira Musashino Tokio/Tokyo Jp Ichikawa
Yoshiaki Kawasaki Kanagawa Jp Asakawa
Akio Higashimurayama Tokio/Tokyo Jp Amano
Nobuo Pittsburgh Pa. Us Hataoka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3929481A1 publication Critical patent/DE3929481A1/de
Application granted granted Critical
Publication of DE3929481C2 publication Critical patent/DE3929481C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen bzw. zur Rauschverringerung in akustischen Signalen der im Oberbegriff des Patentanspruchs 1 bzw. 6 beschriebenen Art. Ein solches Verfahren und eine solche Vorrichtung ist aus der EP 01 26 420 A1 bekannt.
Es sind Verfahren zur Verbesserung des Rauschabstandes bei Sprachsignalen bekannt, bei denen die Frequenzeigenschaften des Rauschens vorab untersucht werden, um die Rauschkomponente dann vom Sprachsignal subtrahieren zu können. Diese Verfahren beruhen jedoch auf der falschen Annahme, daß das Hintergrundrauschen (das Hintergrundgeräusch) gleichmäßig ist. Es wurde auch bereits die Verwendung eines sogenannten neuronalen Netzwerkes diskutiert (Proceedings of ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13, Seiten 253 bis 294, Mai 1988).
Das aus der letztgenannten Druckschrift bekannte System zeigt eine verbesserte Leistungsfähigkeit und hat einen erhöhten Rauschabstand, es hat sich jedoch herausgestellt, daß dabei die Verständlichkeit herabgesetzt ist.
Die Bezeichnung "neuronales Netzwerk" schließt hier zwei Arten solcher Netzwerke ein. Bei der ersten Art besteht das neuronale Netzwerk aus gleichwertigen parallel verarbeitenden Elementen, die untereinander entsprechend einer dynamisch selbstorganisierenden Programmierung auf eine nichtüberwachte, das heißt selbstlernende Weise verbunden werden, unabhängig davon, ob ein "Lehrer" vorhanden ist oder nicht. Bei der zweiten Art besteht das Netzwerk aus gleichwertigen, parallel verarbeitenden Elementen, die vorab durch Lernen fest miteinander verbunden werden. Ein solches Netzwerk kann dann später nichts mehr "lernen".
Die menschliche Sprache wird aus dem Mund als eine Folge von Verdichtungen und Verdünnungen der Luftmoleküle abgegeben. Die sprachbildenden Organe, über die die Sprachinformationen ausgegeben werden, sind bei jedem Menschen anders. Durch die physikalischen Unterschiede zwischen den einzelnen Menschen weichen die physikalischen Eigenschaften der Sprachsignale, wenn sie als physikalische Signale betrachtet werden, erheblich voneinander ab. Darüber hinaus wird von den verschiedensten Schallquellen aus den verschiedensten Richtungen Rauschen oder ein Hintergrundgeräusch erzeugt. Die Abweichungen in den physikalischen Eigenschaften von Sprachsignalen weisen daher keine Gemeinsamkeiten auf. Bei hohem Geräuschpegel wird darüber hinaus die Stimme im allgemeinen angehoben, um das Rauschen zu übertönen, wodurch die Sprache von ihrer gewöhnlichen Form abweicht.
Die eingangs genannte Druckschrift beschreibt ein Spracherkennungssystem mit einer Anzahl von Mikrofonen und daran angeschlossenen Signalverarbeitungseinheiten. Die Anzahl der Mikrofone dient dabei ausschließlich dazu, zur Verbesserung der Spracherkennung die von Mund, Nase und Kehle des Benutzers abgegebenen Laute getrennt zu erfassen, wozu die Mikrofone unmittelbar vor dem Gesicht des Benutzers angeordnet werden. Die Verarbeitung der Signale aus den Mikrofonen erfolgt in der üblichen, im wesentlichen seriellen Art.
Diese Anordnung hat nicht nur den Nachteil, daß die Mikrofone sehr genau plaziert werden müssen, sondern insbesondere auch den Nachteil, daß Hintergrundgeräusche nur sehr schlecht von der Sprache abgetrennt werden können, wodurch ab einem bestimmten Pegel an Hintergrundgeräuschen keine Spracherkennung mehr möglich ist.
Aus dem Artikel "Wie können Computer lernen" von Manfred Weick in der DE-Zeitschrift "Elektronik", Heft 8, 15.04.1988, Seiten 102 bis 113 ist es bekannt, zur Spracherkennung neuronale Netze einzusetzen. Einzelheiten über den Aufbau und die Wirkungsweise der neuronalen Netze bei einer solchen Anwendung sind jedoch nicht angegeben. Lediglich allgemein beschrieben ist das sogenannte "Back-Propagation"-Lernverfahren für neuronale Netzwerke mit einer Fehlerminimierung zwischen einem Eingangssignal und einem entsprechenden, gewünschten Ausgangssignal bei Durchlaufen des Netzwerkes vom Ausgang zum Eingang, das heißt in Rückwärtsrichtung.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und eine Vorrichtung zu schaffen, mit dem bzw. mit der durch Unterdrückung der Hintergrundgeräusche eine verbesserte Spracherkennung möglich ist, das heißt mit dem bzw. mit der Sprachdaten mit hoher Verständlichkeit und Klarheit erhalten werden können.
Diese Aufgabe wird erfindungsgemäß mit den im kennzeichnenden Teil des Patentanspruchs 1 bzw. 6 angegebenen Merkmalen gelöst.
Dabei ist vorgesehen, die Gewichtskoeffizienten des neuronalen Netzwerkes mittels eines reinen Sprachsignals vorab zu bestimmen, und insbesondere ist vorgesehen, die Anzahl Neuronen in der Eingangsschicht des Netzwerkes in zwei (oder mehr) Sätze oder Gruppen aufzuteilen, denen jeweils über eigene Mikrofone akustische Signale zugeführt werden. Es erhält somit jeder Satz von Neuronen in der Eingangsschicht über eigene Mikrofone seine eigenen Signale, die unabhängig von den Signalen sind, die den anderen Neuronengruppen in der Eingangsschicht zugeführt werden. Obwohl bereits die nachfolgende (zweite) Schicht von Neuronen wieder mit allen Neuronen der Eingangsschicht verknüpft ist, tritt dabei der Effekt auf, daß das neuronale Netzwerk auch Parallax-Informationen beim "Lernen" abspeichert und dann verwendet, die durch die räumlich getrennte Anordnung der Mikrofone für die einzelnen Neuronengruppen der Eingangsschicht gewonnen werden.
Es ist dabei ohne weiteres möglich, sowohl für den Standort des Benutzers als auch die Position der Mikrofone einen gewissen räumlichen Bereich vorzusehen. Der Benutzer darf sich somit bezüglich der Mikrofone auch bewegen.
Die in den Patentansprüchen 1 und 6 beschriebene Lösung erlaubt demnach eine sehr gute Spracherkennung auch bei starken Hintergrundgeräuschen. Die Unteransprüche 2 bis 5 sowie 7 und 8 enthalten vorteilhafte Ausgestaltungen der erfindungsgemäßen Vorrichtung bzw. des entsprechenden Verfahrens.
Die Erfindung wird im folgenden anhand der Zeichnung näher erläutert. Es zeigt
Fig. 1 den Aufbau eines Filters zur Verbesserung des Rauschabstandes mit einer Darstellung des Lernprozesses, der damit verbunden ist;
Fig. 2 eine Vorrichtung, bei der der Filter der Fig. 1 verwendet wird; und
Fig. 3 Beispiele zur Verwendung der Erfindung.
In der Fig. 1 ist die Anordnung eines Filters zur Verbesserung des Rauschabstandes, der ein neuronales Netzwerk enthält, dargestellt. Die Fig. 2 zeigt die Anwendung dieses Filters bei einem filternden und lernenden System.
Das in der Fig. 1 gezeigte neuronale Netzwerk besteht aus einer Anzahl von "Neuronen", die in einer ersten bis vierten Schicht 114, 117, 119 und 121 angeordnet sind. Wie es allgemein bekannt ist, können die einzelnen Neuronen durch Verarbeitungseinheiten gebildet werden, die eine Bewertung oder Gewichtung der Signale an ihrem Eingang vornehmen, oder sie können durch eine herkömmliche Von-Neuman-Maschine emuliert werden. Zum Aufbau des Netzwerkes können selbstverständlich auch mehr oder weniger Neuronen und/oder Schichten bzw. Ebenen wie in der Fig. 1 verwendet werden.
Wie in der Fig. 2 gezeigt, werden Sprachsignale 101 und Rauschsignale 102, die einer Anzahl von Mikrofonen 201 eingegeben werden, durch einen multiplexenden A/D-Konverter 202 digitalisiert und dann zu einem Schalter 203 geführt. Im Lernmodus wird das digitalisierte Signal vom Schalter 203 zu einem internen Bus 204 geführt und unter der Steuerung eines Mikroprozesses (µ-CPU) 205 in einem Speicher 206 gespeichert, um entsprechend der im Mikroprozessor 205 enthaltenen Prozeduren das neuronale Netz aufzubauen. Das Ergebnis des Lernens wird in der Form von Gewichtungsfaktoren für die Verbindungen zwischen den Elementen des neuronalen Netzes erhalten.
Jeder so bestimmte Gewichtungsfaktor wird über einen Signalleitung 207 zu einem digitalen Signalprozessor (DSP) 208 gegeben, der ein neuronales Netzwerk zur Rauschfilterung enthält. Der digitale Signalprozessor 208 stellt somit ein neuronales Netzwerk zur Rauschfilterung dar, bei dem die Gewichtungen bereits festgelegt ("gelernt") sind. Wenn das System als Rauschfilter verwendet wird, wird das Eingangs-Sprachsignal 101 (und das Rauschsignal 102) direkt über die Mikrofone 201, den A/D-Konverter 202 und den Schalter 203 in den Signalprozessor 208 eingegeben, um ein Signal 209 mit verbessertem Rauschabstand am Ausgang des Prozesses 208 zu erhalten. Wenn die Anordnung nur als Rauschfilter verwendet wird, brauchen die zum Lernen benötigten Elemente natürlich nicht immer vorhanden zu sein.
Die Arbeitsweise dieses Rauschfilters und die Lernprozedur wird anhand der Fig. 1 beschrieben. Beim Lernen können einige der in der Fig. 1 gezeigten Teile durch virtuelle Teile des Mikroprozessors 205 und des Speichers 206 der Fig. 2 realisiert werden, während sich bei der Ausführung einer tatsächlichen Operation nur diejenigen Teile im Signalprozessor 208 befinden, die den in den Fig. 1 gezeigten Filter bilden. Es ist natürlich auch möglich, daß sich die Mikrofone 201 und der A/D-Konverter 202 an einem anderen Ort befinden und über eine digitale Leitung mit dem Signalprozessor 208 verbunden sind, der dann allein die Vorrichtung bildet.
Zur Vereinfachung erfolgt die Beschreibung mit Bezug auf eine Anordnung, die zwei Eingangssysteme beinhaltet. Die Anordnung kann jedoch auf die gleiche Weise auch drei oder mehr Eingangssystem beinhalten.
Bei der Darstellung der Fig. 1 ist angenommen, daß das Ausgangssignal des q-ten Neuron-Elementes in der p-ten Schicht gleich Op,q und das Ausgangssignal des r-ten Elementes in der (p-1)-ten Schicht gleich Op-1,r ist. Zur Vereinfachung der Beschreibung wird weiter angenommen, daß die Übertragungseigenschaft zwischen dem Eingang x und dem Ausgang y für alle Elemente gleich ist und dargestellt wird durch
y = f(x). (1)
Dann gilt folgendes:
Ip,q = Σwp-1,q,r(O)p-1,r (2)
Op,q = f(Ip,q). (3)
Aus der Gleichung (2) ist ersichtlich, daß die Verarbeitung viele Berechnungen zur Bildung der Summe von Produkten beinhaltet, die der Signalprozessor ausführt. Das neuronale Netzwerk beinhaltet vorzugsweise eine große Anzahl von Neuron-Elementen, die die durch die Gleichung (3) ausgedrückte Eigenschaften haben und die miteinander in einer hierarchischen Struktur verbunden sind. Es ist anzumerken, daß, obwohl das in der Fig. 1 gezeigte neuronale Netzwerk aus vier Schichten oder Ebenen besteht, die Anzahl der Schichten nicht notwendigerweise auf vier begrenzt ist.
Das Gemisch aus den Sprachsignalen 101 und dem Rauschen 102, das über die Mikrofone 103 und 104 den A/D-Konvertern 106 und 107 zugeführt wird, wird dort in digitale Signale umgewandelt, die zu Schieberegistern 112 bzw. 113 weitergeleitet werden. Die Schieberegister 112 und 113 sind zusammen mit einem Schieberegister 124 (später noch genauer erläutert) dafür vorgesehen, aufeinanderfolgend die Daten synchron zur Abtastperiode der A/D-Konverter zu verschieben und in jeder Stufe Daten auszugeben. Die Ausgangssignale der verschiedenen Stufen der Schieberegister 112 und 113 werden dann jeweils den Elementen 115 bzw. 116 in der ersten (Eingangs-) Schicht 114 des neuronalen Netzwerkes zugeführt.
Die Ausgangssignale der Elemente 115 und 116 der ersten Schicht werden auf der Basis der durch die Gleichungen (2) und (3) ausgedrückten Beziehungen zu den Elementen 118 der zweiten Schicht 117 weitergeleitet. Das gleiche gilt für die Verbindung zwischen den Elementen 118 in der zweiten Schicht 117 und den Elementen 120 in der dritten Schicht 119 sowie der Verbindung zwischen den Elementen 120 in der dritten Schicht 119 und den Elementen 122 in der vierten (Ausgangs-) Schicht 121. Durch die Verarbeitung der Signale in den Elementen auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) dargestellt werden, werden Signale 128 mit einem verbesserten Rauschabstand an den Ausgangsanschlüssen 123 der Ausgangsschicht 121 abgegeben. Wenn das Ausgangssignal von einem der Ausgangsanschlüsse 123 als externes Ausgangssignal herausgenommen wird, wird ein Ausgangs-Sprachsignal 209 (Fig. 2) mit verbessertem Rauschabstand erhalten.
Es folgt eine Beschreibung des Lernvorganges bei dem neuronalen Netzwerk, das den Rauschfilter bildet.
Das rückwärtsschreitende Verfahren, das bei der Architektur neuronaler Netzwerke bekannt ist, wird für den Lernvorgang bei dem vorliegenden System geeignet angewendet. Ein solches rückwärtsschreitendes Verfahren ist beispielsweise in der Literaturstelle M.I.T. Press, "Parallel Distributed Processing" Band 1 (1986), Kap. 8, Seiten 318 bis 362 beschrieben.
Der Lernvorgang wird nun mit Bezug auf die Fig. 1 erläutert. Zur Vereinfachung werden einige Symbole eingeführt. Der Wert des Ausgangssignales 128 eines jeden Elementes 122 in der Ausgangsschicht 121 wird mit O₄,i bezeichnet, der Wert des Ausgangssignales des j-ten Elementes der dritten Schicht 119 mit O₃,j, der Wert des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117 mit O₂,k, und ein Soll-Ausgangswert, der als Lerneingang an das i-te Element in der vierten Schicht 121 angelegt wird, mit T₄,i. Bezüglich des Fehlersignales, das für jedes Signal im Verlauf des Rückwärtsschreitens erhalten wird, wird der Wert des Fehlersignals für das i-te Element in der vierten Schicht 121 mit δ₄,i, der Wert des Fehlersignales für das j-te Element in der dritten Schicht 119 mit δ₃,j, und der Wert des Fehlersignales für das k-te Element in der zweiten Schicht 117 mit δ₂,k bezeichnet. Des weiteren wird angenommen, daß die Übertragungseigenschaften der Elemente in allen Schichten die gleichen sind und derjenigen entsprechen, die durch die Gleichung (3) ausgedrückt wird. Es sei außerdem f′ die Ableitung der Funktion f. Der Verbindungsfaktor zwischen dem i-ten Element in der Ausgangsschicht 121 und dem j-ten Element in der dritten Schicht 119 wird mit w₃,i,j bezeichnet, und der Verbindungsfaktor zwischem dem j-ten Element in der dritten Schicht 119 und dem k-ten Element in der zweiten Schicht 117 mit w₂,j,k.
Zum Lernen werden verschiedene Sprachtypen 101 und verschiedene Rauschtypen 102 getrennt in die Mikrofone 103, 104 und 105 eingegeben. Das in das Mikrofon 105 eingegebene Signal besteht aus einem reinen Sprachsignal, es wird für den Soll-Ausgangswert T₄,i verwendet. Die Signale werden in den jeweiligen Speichern 109, 110 und 111 (Bereiche im Speicher 206 der Fig. 2) gespeichert. Die gespeicherte Sprache und das gespeicherte Rauschen werden in Addierern 129 und 130 addiert, um Signale zusammenzusetzen, denen ein Rauschen überlagert ist. Diese Signale werden zu den Schieberegistern 112 und 113 gegeben. Daten über das Ausmaß, in dem das Rauschen überlagert ist, und über die Kombination von Sprache und Rauschen werden für verschiedene erwartete Zustände wiederholt vorbereitet und als Lern-Eingangssignale verwendet. Bei der tatsächlichen Ausführung wird die Überlagerung durch Verwendung einer arithmetischen Funktion des Mikroprozessors 205 der Fig. 2 ausgeführt. Der Soll-Ausgangswert T₄,i ist ein Sprachsignal, das dem Lern-Eingangssignal entspricht, und es setzt den Grad fest, bis zu dem die Sprache im Lern-Eingangssignal als Ergebnis der Verbesserung des Rauschabstandes verbessert werden soll. Das Eingangsmikrofon 105, der A/D-Konverter 108 und der Speicher 111 für den Soll-Ausgangswert T₄,i können auch für eine Eingabe verwendet werden, das heißt als Mikrofon 103 (oder 104), D/A-Konverter 106 (oder 107) und Speicher 109 (oder 110), wie es durch die Verbindungslinie 127 gezeigt wird. Die Sprache für den Soll-Ausgangswert T₄,i wird dem Schieberegister 124 eingegeben und die Ausgangssignale 125 aus den verschiedenen Stufen des Schieberegisters 124 werden den entsprechenden Elementen 122 in der Ausgangsschicht 121 des neuronalen Netzwerkes als Soll-Ausgangssignale 125 eingegeben.
Wenn jedem Element in der ersten Schicht 114 ein Lern-Eingangssignal (Sprache und Rauschen einander überlagert) eingegeben wird, wird auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) ausgedrückt werden, aufeinanderfolgend von jedem Element von der Eingangsschicht zur Ausgangsschicht ein Ausgangssignal erhalten. Nachdem das Ausgangssignal für jedes Element erhalten wurde, werden aufeinanderfolgend von der Ausgangsschicht 121 bis zu den unteren Schichten Fehlersignale ermittelt. Die Korrektur der Verbindungsfaktoren zwischen der p-ten Schicht und (p+1)-ten Schicht erfolgt unter Verwendung der Fehlersignale für die (p+1)-te Schicht und den Werten der Ausgangssignale in der p-ten Schicht. Im folgenden wird zur Vereinfachung nur der Vorgang zur Korrektur der Verbindungsfaktoren w₃,i,j und w₂,j,k erläutert. Für die folgenden Schichten wird der entsprechende Vorgang wiederholt, bis hinunter zur Eingangsschicht.
Zur Korrektur der Verbindungsfaktoren w₃,i,j und w₂,j,k werden den Wert O₂,k des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117, der Wert O₃,j des Ausgangssignales des j-ten Elementes in der dritten Schicht 119, der Wert δ₃,i,j des Fehlersignales des j-ten Elementes in der dritten Schicht 119 und der Wert δ₄,i des Fehlersignales des i-ten Elementes in der vierten (Ausgangs-) Schicht 121 benötigt. Die Werte für O₂,k und O₃,j können durch eine Vorwärtsrechnung durch Anlegen von Eingangssignalen an die erste Schicht 114 erhalten werden, wie oben beschrieben. Die Werte δ₄,i δ₃,j können aus den folgenden Gleichungen berechnet werden:
Als nächstes werden w₃,i,j und w₂,j,k korrigiert. Wenn die Korrekturwerte dabei durch Δw₃,i,j und Δw₂,j,k ausgedrückt werden, können diese Korrekturwerte wie folgt berechnet werden:
Δw₃,i,j = α(δ₄,i,) (O₃,j) (6)
Δw₂,k,h = α(δ₃,i,) (O₂,k) (7)
α kann durch experimentelles Überprüfen der Konvergenzgeschwindigkeit eingestellt werden. Die Gleichungen (6) und (7) ermöglichen eine Korrektur aller Verbindungsfaktoren zwischen der Ausgangsschicht und der dritten Schicht und zwischen der dritten und der zweiten Schicht. Die Verbindungsfaktoren zwischen der zweiten Schicht und der Eingangsschicht können auf die gleiche Weise korrigiert werden wie die Verbindungsfaktoren zwischen der dritten und der zweiten Schicht.
Auf diese Weise werden alle Verbindungsfaktoren einmal korrigiert. Mit anderen Eingangsdaten und Sollwerten (solchen, die sich von den obigen Werten bezüglich der Stimme, dem Rauschen, dem gegenseitigen Pegel und der gegenseitigen Phasenbeziehung unterscheiden) wird der obige Vorgang zur Korrektur der Verbindungsfaktoren wiederholt. Jedesmal, wenn der Vorgang wiederholt wird, wird ein Bewertungsfaktor E wie folgt ermittelt:
Die Bewertungsfaktoren werden über alle Lernmuster gemittelt. Wenn der Mittelwert kleiner als ein vorgegebener Schwellenwert wird, steht fest, daß der Lernvorgang abgeschlossen ist.
Wenn der Standort einer sprechenden Person und die Positionen der Mikrophone auf einen vorgegebenen Bereich beschränkt sind, werden die Sprachinformationen zum Lernen auch unter den entsprechenden Bedingungen eingegeben und das interne Sprachsignal unter Berücksichtigung der Pegel und der Phasenunterschiede zwischen den Mikrofonen bei dieser Anordnung erzeugt. Dadurch wird die Effektivität der Verbesserung des Rauschabstandes bedeutend erhöht. Wenn für den Standort der sprechenden Person ein gewisser Bereich erlaubt werden soll, entspricht die Lern-Eingangssprache ebenfalls diesem Bereich. Die entsprechenden Bedingungen können leicht abgeleitet werden, beispielsweise auch durch eine interne Synthetisierung auf der Basis der Grundlagen der Akustik (beispielsweise reicht es, die Verzögerung des Sprachsignales, die sich aus dem Abstand zwischen der sprechenden Person und dem Mikrofon ergibt, und das quadratische Gesetz der Abschwächung zu berücksichtigen).
Es ist anzumerken, daß es auch möglich ist, das Eingangssignal einer komplexen Fourier-Transformation oder dergleichen zu unterwerfen und es dann beispielsweise im Frequenzraum in das neuronale Netz einzugeben. In einem solchen Fall kann die Eingangsschicht für die Frequenz und die Phase oder für den Realteil und den Imaginärteil in zweidimensionaler Form vorgesehen sein. Der Ausgang kann ein Ausgangssignal im Frequenzbereich sein, das in den Wellenformbereich rücktransformiert wird. Bei diesen Verfahren wird eine der bekannten Raumprojektionstransformationen und eine entsprechende inverse Transformation benötigt.
Einige Anwendungen des vorstehend beschriebenen Filters sind in der Fig. 3 dargestellt.
Die Spracherkennung kann beispielsweise dadurch verbessert werden, daß ein gemäß der vorstehenden Beschreibung aufgebauter Rauschfilter 301 vor einer Spracherkennungsvorrichtung 302 angeordnet wird, um daraus ein verbessertes Ausgangssignal 303 zu erhalten.
Der Rauschfilter 301 kann auch einer Sprachkodiervorrichtung 304 vorgeschaltet werden, wodurch an dessen Ausgang 305 eine kodierte Sprache erhalten wird, die leicht zu erkennen ist, so daß auch bei einem sehr hohen Geräuschpegel eine Sprachverbindung möglich ist.
Der Rauschfilter 301 kann schließlich auch vor einem gewöhnlichen Sprachanalysegerät 306 angeordnet werden, wodurch es möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel festzustellen, wenn beispielsweise von einem Menschen die Stimme angehoben wird, um die Hintergrundgeräusche zu übertönen, wodurch die Sprache von ihrer üblichen Form abweicht.
Der bei dem erfindungsgemäßen Verfahren bzw. der Vorrichtung verwendete Sprachdatenfilter weist somit eine Anzahl von Mikrofonen auf, die im Abstand voneinander angeordnet sind. Der auf die Mikrofone einwirkende Schall wird in nachgeschalteten A/D-Konverten in ein digitales serielles Signal umgewandelt, das ein Eingangssignal für ein neuronales Netzwerk bildet. Das neuronale Netzwerk blendet Hintergrundgeräusche aus, wobei teilweise Daten verwendet werden, die aus den Parallelax-Informationen erhalten werden, die durch die versetzte Anordnung der Mikrofone gewonnen werden. Die aus dem neuronalen Netzwerk erhaltenen Daten werden dann zu einem digitalen Signalprozessor übertragen, um das Rauschen herauszufiltern.

Claims (10)

1. Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen, mit
  • - eine Anzahl von räumlich getrennt angeordneten Wandlern (103, 104, 105; 201) zum Erzeugen einer Anzahl von elektrischen Sprachsignalen, die dem auf die Wandler einwirkenden Schall entsprechen;
gekennzeichnet durch
  • - ein neuronales Netzwerk mit einer Anzahl von Schichten (114, 117, 119, 121), einschließlich einer Eingangsschicht (114) und einer Ausgangsschicht (121), wobei jede Schicht aus einer Anzahl von Neuron-Elementen (115, 116; 118; 120; 122) besteht;
    • - wobei vorab durch selektives Anlegen eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und durch Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen,
  • - durch eine erste Übermittlungseinrichtung (106, 112), um das elektrische Sprachsignal von einem ersten (103) der Wandler zu jedem Element (115) eines ersten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen; und
  • - durch eine zweite Übermittlungseinrichtung (107, 113), um das elektrische Sprachsignal von einem zweiten (104) der Wandler zu jedem Element (116) eines zweiten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß jeder der Wandler (103, 104, 105; 201) ein analoges elektrisches Sprachsignal erzeugt, und daß die erste und die zweite Übermittlungseinrichtung jeweils eine Einrichtung (106; 107) zur Umwandlung des analogen elektrischen Sprachsignales in ein erstes bzw. zweites serielles digitales Sprachsignal enthält.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die erste und die zweite Übermittlungseinrichtung jeweils ein Schieberegister (112; 113) zum Umwandeln der ersten bzw. zweiten seriellen digitalen Signale in eine entsprechende erste bzw. zweite Serie von Ausgangssignalen aufweisen, wobei die Ausgangssignale der ersten und zweiten Serien jeweils das Eingangssignal für ein Neuron-Element (115; 116) des ersten und zweiten Satzes der Eingangsschicht (114) bilden.
4. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine Einrichtung zur Ausführung einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.
5. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine Anzahl N zusätzlicher räumlicher getrennter Wandler zur Erzeugung von elektrischen Sprachsignalen, und durch N zusätzliche Übermittlungseinrichtungen zum Übertragen der elektrischen Sprachsignale zu einem N-ten Satz von Neuron-Elementen in der Eingangsschicht des neuronalen Netzes.
6. Verfahren zur Rauschverringerung in akustischen Signalen, mit den Verfahrensschritten
  • (a) des Aufnehmens von Schallwellen aus einer Anzahl von Positionen; und
  • (b) des Erzeugens einer Anzahl von elektrischen Schallsignalen, die den Schallwellen von jeder der Positionen entsprechen;
gekennzeichnet durch die Schritte
  • (c) des Übertragens der elektrischen Schallsignale jeweils zu einem ersten und zweiten Satz von Neuron-Elementen (115; 116) in einer Eingangsschicht (114) eines neuronalen Netzwerkes, wobei vorab durch das selektive Anlegens eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und das Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten bestimmt werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen;
  • (d) des Berechnens eines Ausgangssignales in dem neuronalen Netzwerk, das von den elektrischen Schallsignalen am ersten und zweiten Satz von Neutronen abgeleitet wird; und
  • (e) des Abgebens der Ausgangssignale von einer Ausgangsschicht (121) der Neuronen des neuronalen Netzwerkes.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Verfahrensschritt (b) das Erzeugen einer Anzahl analoger elektrischer Sprachsignale und das Umwandeln der analogen elektrischen Sprachsignale in eine entsprechende Anzahl serieller digitalisierter Sprachsignale umfaßt; und daß der Verfahrensschritt (c) die Übermittlung jedes der digitalen Sprachsignale zu dem entsprechenden Satz von Neuron-Elementen (115; 116) der Eingangsschicht (114) des neuronalen Netzwerkes beinhaltet.
8. Verfahren nach Anspruch 6, gekennzeichnet durch den weiteren Verfahrensschritt des Ausführens einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.
DE19893929481 1988-09-07 1989-09-05 Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen Granted DE3929481A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22230988A JPH0272398A (ja) 1988-09-07 1988-09-07 音声信号用前処理装置

Publications (2)

Publication Number Publication Date
DE3929481A1 DE3929481A1 (de) 1990-03-15
DE3929481C2 true DE3929481C2 (de) 1991-07-04

Family

ID=16780341

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19893929481 Granted DE3929481A1 (de) 1988-09-07 1989-09-05 Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen

Country Status (2)

Country Link
JP (1) JPH0272398A (de)
DE (1) DE3929481A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2643593B2 (ja) * 1989-11-28 1997-08-20 日本電気株式会社 音声・モデム信号識別回路
JPH0462599A (ja) * 1990-07-02 1992-02-27 N T T Data Tsushin Kk 雑音除去装置
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
US5787393A (en) * 1992-03-30 1998-07-28 Seiko Epson Corporation Speech recognition apparatus using neural network, and learning method therefor
JP3521429B2 (ja) * 1992-03-30 2004-04-19 セイコーエプソン株式会社 ニューラルネットワークを用いた音声認識装置およびその学習方法
DE4243831A1 (de) * 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
EP0712261A1 (de) * 1994-11-10 1996-05-15 Siemens Audiologische Technik GmbH Programmierbares Hörgerät
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
DE19844748A1 (de) * 1998-09-29 1999-10-07 Siemens Audiologische Technik Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
US6738481B2 (en) 2001-01-10 2004-05-18 Ericsson Inc. Noise reduction apparatus and method
CN108766440B (zh) 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE45831T1 (de) * 1983-05-18 1989-09-15 Speech Systems Inc Spracherkennungssystem.

Also Published As

Publication number Publication date
DE3929481A1 (de) 1990-03-15
JPH0272398A (ja) 1990-03-12

Similar Documents

Publication Publication Date Title
DE3929481C2 (de)
DE69827911T2 (de) Verfahren und einrichtung zur mehrkanaligen kompensation eines akustischen echos
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE3938645C1 (de)
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE60310687T2 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
EP1525576A1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
DE3019823C2 (de)
DE69820497T2 (de) Neuronales netzwerk und seine anwendung für die spracherkennung
EP1981582B1 (de) Vorrichtung und computerprogramm zum erzeugen eines ansteuersignals für ein cochlea-implantat basierend auf einem audiosignal
DE112021001228T5 (de) Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
DE102005039621A1 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE19611732C1 (de) Verfahren zur Ermittlung von zur Entfernung geeigneten Gewichten eines neuronalen Netzes mit Hilfe eines Rechners
EP0554494A1 (de) Adaptives nichtrekursives Digitalfilter
WO2014094709A2 (de) Verfahren zur ermittlung wenigstens zweier einzelsignale aus wenigstens zwei ausgangssignalen
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
DE2435654C2 (de) Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE3037276C2 (de) Tonsynthesizer
DE19628503A1 (de) Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

D2 Grant after examination
8363 Opposition against the patent
8330 Complete disclaimer