DE3929481A1 - Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen - Google Patents

Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen

Info

Publication number
DE3929481A1
DE3929481A1 DE19893929481 DE3929481A DE3929481A1 DE 3929481 A1 DE3929481 A1 DE 3929481A1 DE 19893929481 DE19893929481 DE 19893929481 DE 3929481 A DE3929481 A DE 3929481A DE 3929481 A1 DE3929481 A1 DE 3929481A1
Authority
DE
Germany
Prior art keywords
signals
signal
neural network
speech
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19893929481
Other languages
English (en)
Other versions
DE3929481C2 (de
Inventor
Akira Ichikawa
Yoshiaki Asakawa
Akio Amano
Nobuo Hataoka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3929481A1 publication Critical patent/DE3929481A1/de
Application granted granted Critical
Publication of DE3929481C2 publication Critical patent/DE3929481C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Description

Die Erfindung betrifft allgemein die Signalverarbeitung und insbesondere ein Verfahren und eine Vorrichtung zur Vorbearbeitung von Sprachsignalen, um den Rauschabstand bei den einem Sprachprozessor zugeführten Sprachsignalen zu verbessern.
Es sind einige Verfahren zur Verbesserung des Rauschabstandes bei Sprachsignalen bekannt, wobei die Frequenzeigenschaften des Rauschens vorab untersucht werden, um die Rauschkomponente dann vom Sprachsignal subtrahieren zu können. Diese bekannte Verfahren beruhen jedoch auf der falschen Annahme, daß das Hintergrundrauschen (das Hintergrundgeräusch) gleichmäßig ist. Solches Systeme arbeiten typisch mit zwei Mikrofoneingängen, um die entsprechenden Signale substrahieren zu können und dadurch das Hintergrundrauschen auszublenden. Es wurde auch bereits die Verwendung eines sogenannten neuronalen Netzwerkes diskutiert (Proceedings of ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13, Seiten 253 bis 294, Mai 1988).
Das aus der letztgenannten Druckschrift bekannte System zeigt eine verbesserte Leistungsfähigkeit und hat einen Rauschabstand, der dem früherer Techniken überlegen ist, es hat sich jedoch herausgestellt, daß dabei die Verständlichkeit herabgesetzt ist.
Die Bezeichnung "neuronales Netzwerk" schließt hier zwei Arten der neuronalen Netzwerk ein. Bei der ersten Art besteht das neuronale Netzwerk aus gleichwertigen parallel verarbeitenden Elementen, die untereinander entsprechend einer dynamisch selbstorganisierenden Programmierung auf eine nichtüberwachte, das heißt selbstlernende Weise verbunden werden, unabhängig davon, ob ein "Lehrer" vorhanden ist oder nicht. Bei der zweiten Art des neuronalen Netzwerkes besteht das Netzwerk aus gleichwertigen, parallel verarbeitenden Elementen, die vorab durch Lernen fest miteinander verbunden werden. Ein solches Netzwerk kann dann später nichts mehr "lernen".
Die menschliche Sprache wird aus dem Mund als eine Folge von Verdichtungen und Verdünnungen der Luftmoleküle abgegeben. Die sprachbildenden Organe, über die die Sprachinformationen ausgegeben werden, sind bei jedem Menschen anders. Durch die physikalischen Unterschiede zwischen den einzelnen Menschen weichen die physikalischen Eigenschaften der Sprachsignale, wenn sie als physikalische Signale betrachtet werden, erheblich voneinander ab. Darüber hinaus wird von den verschiedensten Schallquellen aus den verschiedensten Richtungen Rauschen oder ein Hintergrundgeräusch erzeugt. Die Abweichungen in den physikalischen Eigenschaften von Sprachsignalen weisen daher keine Gemeinsamkeiten auf.
Aufgabe der Erfindung ist es, ein Verfahren und eine Vorrichtung zu schaffen, mit dem bzw. mit der Sprachdaten mit verbesserter Verständlichkeit und Klarheit erhalten werden können.
Zur Lösung dieser Aufgabe werden bei dem erfindungsgemäßen Verfahren bzw. der entsprechenden Vorrichtung die Signale einer Anzahl von Wandlern, die Schall in elektrische Signale umwandeln, wie beispielsweise Mikrofone, als Eingangssignale eines neuronalen Netzwerkes verwendet. Die sprachliche Konversation wird vom Menschen ja ohne Schwierigkeiten ausgeführt, auch bei einem hohen Geräuschpegel, teilweise durch die Benutzung von beiden Ohren. Die Anzahl von Mikrofonen ergibt Eingangsinformationen, wie etwa Parallax-Informationen, die das neuronale Netzwerk verwenden kann, um eine Schallfilterung auszuführen.
Das neuronale Netzwerk führt einen Lernvorgang derart aus, daß nur physikalische Eigenschaften, die den Eingangssignalen von einer Anzahl von Mikrofonen und einem reinen Sprachsignal, das zum Lernen von der Ausgangsseite des Netzwerkes zugeführt wird, gemeinsam sind, durchgelassen werden. Alle anderen Signale werden ausgefiltert. Es werden somit nur Signale durchgelassen, die ausschließlich die physikalischen Eigenschaften der Sprache aufweisen, während die Rauschkomponente unterdrückt wird. Der Rauschabstand des Systems wird dadurch wesentlich verbessert.
Mit dem erfindungsgemäßen Verfahren und der entsprechenden Vorrichtung ist es möglich, den Rauschabstand von Sprachinformationen zu erhöhen, die bei einem sehr hohen Geräuschpegel erfaßt werden. Es werden somit die folgenden Vorteile erhalten:
Die Sicherheit der Spracherkennung wird dadurch erhöht, daß ein erfindungsgemäßer Filter vor einer Spracherkennungsvorrichtung angeordnet wird.
Die Sicherheit der Erkennung wird auch dadurch erhöht, daß der erfindungsgemäße Filter vor einer Sprachkodiervorrichtung angeordnet wird, wodurch eine kodierte Sprache mit einem hohen Rauschabstand, die leicht zu erkennen ist, erhalten wird, so daß eine Sprachkommunikation auch bei hohem Geräuschpegel ausgeführt werden kann.
Die Sicherheit der Erkennung wird auch dadurch erhöht, daß der erfindungsgemäße Filter vor einem der gewöhnlichen verschiedenen Arten von Sprachanalysegeräten angeordnet wird, wodurch es möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel festzustellen (unter solchen Bedingungen wird von einem Menschen die Stimme im allgemeinen angehoben, um das Rauschen zu übertönen, wodurch die Sprache von ihrer gewöhnlichen Form abweicht).
Mit dem erfindungsgemäßen System ist es daher möglich, den Rauschabstand bei Sprachdaten zu erhöhen, ohne daß gleichzeitig die Verständlichkeit verschlechtert wird.
Ein Ausführungsbeispiel des erfindungsgemäßen Systems wird im folgenden anhand der Zeichnung näher erläutert. Es zeigt
Fig. 1 den Aufbau eines Filters zur Verbesserung des Rauschabstandes mit einer Darstellung des Lernprozesses, der damit verbunden ist;
Fig. 2 eine Vorrichtung, bei der der Filter der Fig. 1 verwendet wird; und
Fig. 3 Beispiele zur Verwendung des erfindungsgemäßen Systems.
In der Fig. 1 ist die Anordnung eines Filters zur Verbesserung des Rauschabstandes, der ein neuronales Netzwerk enthält, dargestellt. Die Fig. 2 zeigt die Anwendung dieses Filters bei einem filternden und lernenden System.
Das in der Fig. 1 gezeigte neuronale Netzwerk besteht aus einer Anzahl von "Neuronen", die in einer ersten bis vierten Schicht 114, 117, 119 und 121 angeordnet sind. Wie es allgemein bekannt ist, können die einzelnen Neuronen durch Verarbeitungseinheiten gebildet werden, die eine Bewertung oder Gewichtung der Signale an ihrem Eingang vornehmen, oder sie können durch eine herkömmliche Von-Neuman-Maschine emuliert werden. Zum Aufbau des Netzwerkes können selbstverständlich auch mehr oder weniger Neuronen und/oder Schichten bzw. Ebenen wie in der Fig. 1 verwendet werden.
Wie in der Fig. 2 gezeigt, werden Sprachsignale 101 und Rauschsignale 102, die einer Anzahl von Mikrofonen 201 eingegeben werden, durch einen multiplexenden A/D-Konverter 202 digitalisiert und dann zu einem Schalter 203 geführt. Im Lernmodus wird das digitalisierte Signal vom Schalter 203 zu einem internen Bus 204 geführt und unter der Steuerung eines Mikroprozesses (µ-CPU) 205 in einem Speicher 206 gespeichert, um entsprechend der im Mikroprozessor 205 enthaltenen Prozeduren das neuronale Netz aufzubauen. Das Ergebnis des Lernens wird in der Form von Gewichtungsfaktoren für die Verbindungen zwischen den Elementen des neuronalen Netzes erhalten.
Jeder so bestimmte Gewichtungsfaktor wird über einen Signalleitung 207 zu einem digitalen Signalprozessor (DSP) 208 gegeben, der ein neuronales Netzwerk zur Rauschfilterung enthält. Der digitale Signalprozessor 208 stellt somit ein neuronales Netzwerk zur Rauschfilterung dar, bei dem die Gewichtungen bereits festgelegt ("gelernt") sind. Wenn das System als Rauschfilter verwendet wird, wird das Eingangs-Sprachsignal 101 (und das Rauschsignal 102) direkt über die Mikrofone 201, den A/D-Konverter 202 und den Schalter 203 in den Signalprozessor 208 eingegeben, um ein Signal 209 mit verbessertem Rauschabstand am Ausgang des Prozesses 208 zu erhalten. Wenn die Anordnung nur als Rauschfilter verwendet wird, brauchen die zum Lernen benötigten Elemente natürlich nicht immer vorhanden zu sein.
Die Arbeitsweise dieses Rauschfilters und die Lernprozedur wird anhand der Fig. 1 beschrieben. Beim Lernen können einige der in der Fig. 1 gezeigten Teile durch virtuelle Teile des Mikroprozessors 205 und des Speichers 206 der Fig. 2 realisiert werden, während sich bei der Ausführung einer tatsächlichen Operation nur diejenigen Teile im Signalprozessor 208 befinden, die den in den Fig. 1 gezeigten Filter bilden. Es ist natürlich auch möglich, daß sich die Mikrofone 201 und der A/D-Konverter 202 an einem anderen Ort befinden und über eine digitale Leitung mit dem Signalprozessor 208 verbunden sind, der dann allein die Vorrichtung bildet.
Zur Vereinfachung erfolgt die Beschreibung mit Bezug auf eine Anordnung, die zwei Eingangssysteme beinhaltet. Die Anordnung kann jedoch auf die gleiche Weise auch drei oder mehr Eingangssystem beinhalten.
Bei der Darstellung der Fig. 1 ist angenommen, daß das Ausgangssignal des q-ten Neuron-Elementes in der p-ten Schicht gleich O p,q und das Ausgangssignal des r-ten Elementes in der (p-1)-ten Schicht gleich O p-1,r ist. Zur Vereinfachung der Beschreibung wird weiter angenommen, daß die Übertragungseigenschaft zwischen dem Eingang x und dem Ausgang y für alle Elemente gleich ist und dargestellt wird durch
y = f(x). (1)
Dann gilt folgendes:
I p,q = Σ w p-1,q,r (O) p-1,r (2)
O p,q = f(I p,q). (3)
Aus der Gleichung (2) ist ersichtlich, daß die Verarbeitung viele Berechnungen zur Bildung der Summe von Produkten beinhaltet, die der Signalprozessor ausführt. Das neuronale Netzwerk beinhaltet vorzugsweise eine große Anzahl von Neuron-Elementen, die die durch die Gleichung (3) ausgedrückte Eigenschaften haben und die miteinander in einer hierarchischen Struktur verbunden sind. Es ist anzumerken, daß, obwohl das in der Fig. 1 gezeigte neuronale Netzwerk aus vier Schichten oder Ebenen besteht, die Anzahl der Schichten nicht notwendigerweise auf vier begrenzt ist.
Das Gemisch aus den Sprachsignalen 101 und dem Rauschen 102, das über die Mikrofone 103 und 104 den A/D-Konvertern 106 und 107 zugeführt wird, wird dort in digitale Signale umgewandelt, die zu Schieberegistern 112 bzw. 113 weitergeleitet werden. Die Schieberegister 112 und 113 sind zusammen mit einem Schieberegister 124 (später noch genauer erläutert) dafür vorgesehen, aufeinanderfolgend die Daten synchron zur Abtastperiode der A/D-Konverter zu verschieben und in jeder Stufe Daten auszugeben. Die Ausgangssignale der verschiedenen Stufen der Schieberegister 112 und 113 werden dann jeweils den Elementen 115 bzw. 116 in der ersten (Eingangs-) Schicht 114 des neuronalen Netzwerkes zugeführt.
Die Ausgangssignale der Elemente 115 und 116 der ersten Schicht werden auf der Basis der durch die Gleichungen (2) und (3) ausgedrückten Beziehungen zu den Elementen 118 der zweiten Schicht 117 weitergeleitet. Das gleiche gilt für die Verbindung zwischen den Elementen 118 in der zweiten Schicht 117 und den Elementen 120 in der dritten Schicht 119 sowie der Verbindung zwischen den Elementen 120 in der dritten Schicht 119 und den Elementen 122 in der vierten (Ausgangs-) Schicht 121. Durch die Verarbeitung der Signale in den Elementen auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) dargestellt werden, werden Signale 128 mit einem verbesserten Rauschabstand an den Ausgangsanschlüssen 123 der Ausgangsschicht 121 abgegeben. Wenn das Ausgangssignal von einem der Ausgangsanschlüsse 123 als externes Ausgangssignal herausgenommen wird, wird ein Ausgangs-Sprachsignal 209 (Fig. 2) mit verbessertem Rauschabstand erhalten.
Es folgt eine Beschreibung des Lernvorganges bei dem neuronalen Netzwerk, das den Rauschfilter bildet.
Das rückwärtsschreitende Verfahren, das bei der Architektur neuronaler Netzwerke bekannt ist, wird für den Lernvorgang bei dem vorliegenden System geeignet angewendet. Ein solches rückwärtsschreitendes Verfahren ist beispielsweise in der Literaturstelle M.I.T. Press, "Parallel Distributed Processing" Band 1 (1986), Kap. 8, Seiten 318 bis 362 beschrieben.
Der Lernvorgang wird nun mit Bezug auf die Fig. 1 erläutert. Zur Vereinfachung werden einige Symbole eingeführt. Der Wert des Ausgangssignales 128 eines jeden Elementes 122 in der Ausgangsschicht 121 wird mit O,i bezeichnet, der Wert des Ausgangssignales des j-ten Elementes der dritten Schicht 119 mit O,j , der Wert des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117 mit O,k , und ein Soll-Ausgangswert, der als Lerneingang an das i-te Element in der vierten Schicht 121 angelegt wird, mit T,i . Bezüglich des Fehlersignales, das für jedes Signal im Verlauf des Rückwärtsschreitens erhalten wird, wird der Wert des Fehlersignals für das i-te Element in der vierten Schicht 121 mit δ,i , der Wert des Fehlersignales für das j-te Element in der dritten Schicht 119 mit δ,j , und der Wert des Fehlersignales für das k-te Element in der zweiten Schicht 117 mit δ,k bezeichnt. Des weiteren wird angenommen, daß die Übertragungseigenschaften der Elemente in allen Schichten die gleichen sind und derjenigen entsprechen, die durch die Gleichung (3) ausgedrückt wird. Es sei außerdem f′ die Ableitung der Funktion f. Der Verbindungsfaktor zwischen dem i-ten Element in der Ausgangsschicht 121 und dem j-ten Element in der dritten Schicht 119 wird mit w,i,j bezeichnet, und der Verbindungsfaktor zwischem dem j-ten Element in der dritten Schicht 119 und dem k-ten Element in der zweiten Schicht 117 mit w,j,k .
Zum Lernen werden verschiedene Sprachtypen 101 und verschiedene Rauschtypen 102 getrennt in die Mikrofone 103, 104 und 105 eingegeben. Das in das Mikrofon 105 eingegebene Signal besteht aus einem reinen Sprachsignal, es wird für den Soll-Ausgangswert T,i verwendet. Die Signale werden in den jeweiligen Speichern 109, 110 und 111 (Bereiche im Speicher 206 der Fig. 2) gespeichert. Die gespeicherte Sprache und das gespeicherte Rauschen werden in Addierern 129 und 130 addiert, um Signale zusammenzusetzen, denen ein Rauschen überlagert ist. Diese Signale werden zu den Schieberegistern 112 und 113 gegeben. Daten über das Ausmaß, in dem das Rauschen überlagert ist, und über die Kombination von Sprache und Rauschen werden für verschiedene erwartete Zustände wiederholt vorbereitet und als Lern-Eingangssignale verwendet. Bei der tatsächlichen Ausführung wird die Überlagerung durch Verwendung einer arithmetischen Funktion des Mikroprozessors 205 der Fig. 2 ausgeführt. Der Soll-Ausgangswert T,i ist ein Sprachsignal, das dem Lern-Eingangssignal entspricht, und es setzt den Grad fest, bis zu dem die Sprache im Lern-Eingangssignal als Ergebnis der Verbesserung des Rauschabstandes verbessert werden soll. Das Eingangsmikrofon 105, der A/D-Konverter 108 und der Speicher 111 für den Soll-Ausgangswert T,i können auch für einen Eingabe verwendet werden, das heißt als Mikrofon 103 (oder 104), D/A-Konverter 106 (oder 107) und Speicher 109 (oder 110), wie es durch die Verbindungslinie 127 gezeigt wird. Die Sprache für den Soll-Ausgangswert T,i wird dem Schieberegister 124 eingegeben und die Ausgangssignale 125 aus den verschiedenen Stufen des Schieberegisters 124 werden den entsprechenden Elementen 122 in der Ausgangsschicht 121 des neuronalen Netzwerkes als Soll-Ausgangssignale 125 eingegeben.
Wenn jedem Element in der ersten Schicht 114 ein Lern-Eingangssignal (Sprache und Rauschen einander überlagert) eingegeben wird, wird auf der Basis der Beziehungen, die durch die Gleichungen (2) und (3) ausgedrückt werden, aufeinanderfolgend von jedem Element von der Eingangsschicht zur Ausgangsschicht ein Ausgangssignal erhalten. Nachdem das Ausgangssignal für jedes Element erhalten wurde, werden aufeinanderfolgend von der Ausgangsschicht 121 bis zu den unteren Schichten Fehlersignale ermittelt. Die Korrektur der Verbindungsfaktoren zwischen der p-ten Schicht und (p+1)-ten Schicht erfolgt unter Verwendung der Fehlersignale für die (p+1)-te Schicht und den Werten der Ausgangssignale in der p-ten Schicht. Im folgenden wird zur Vereinfachung nur der Vorgang zur Korrektur der Verbindungsfaktoren w,i,j und w,j,k erläutert. Für die folgenden Schichten wird der entsprechende Vorgang wiederholt, bis hinunter zur Eingangsschicht.
Zur Korrektur der Verbindungsfaktoren w,i,j und w,j,k werden den Wert O,k des Ausgangssignales des k-ten Elementes in der zweiten Schicht 117, der Wert O,j des Ausgangssignales des j-ten Elementes in der dritten Schicht 119, der Wert δ,i,j des Fehlersignales des j-ten Elementes in der dritten Schicht 119 und der Wert δ,i des Fehlersignales des i-ten Elementes in der vierten (Ausgangs-) Schicht 121 benötigt. Die Werte für O,k und O,j können durch eine Vorwärtsrechnung durch Anlegen von Eingangssignalen an die erste Schicht 114 erhalten werden, wie oben beschrieben. Die Werte δ,i δ,j können aus den folgenden Gleichungen berechnet werden:
Als nächstes werden w,i,j und w,j,k korrigiert. Wenn die Korrekturwerte dabei durch Δ w,i,j und Δ w,j,k ausgedrückt werden, können diese Korrekturwerte wie folgt berechnet werden:
Δ w,i,j = α(δ,i, ) (O,j ) (6)
Δ w,k,h = α(δ,i, ) (O,k ) (7)
α kann durch experimentelles Überprüfen der Konvergenzgeschwindigkeit eingestellt werden. Die Gleichungen (6) und (7) ermöglichen eine Korrektur aller Verbindungsfaktoren zwischen der Ausgangsschicht und der dritten Schicht und zwischen der dritten und der zweiten Schicht. Die Verbindungsfaktoren zwischen der zweiten Schicht und der Eingangsschicht können auf die gleiche Weise korrigiert werden wie die Verbindungsfaktoren zwischen der dritten und der zweiten Schicht.
Auf diese Weise werden alle Verbindungsfaktoren einmal korrigiert. Mit anderen Eingangsdaten und Sollwerten (solchen, die sich von den obigen Werten bezüglich der Stimme, dem Rauschen, dem gegenseitigen Pegel und der gegenseitigen Phasenbeziehung unterscheiden) wird der obige Vorgang zur Korrektur der Verbindungsfaktoren wiederholt. Jedesmal, wenn der Vorgang wiederholt wird, wird ein Bewertungsfaktor E wie folgt ermittelt:
Die Bewertungsfaktoren werden über alle Lernmuster gemittelt. Wenn der Mittelwert kleiner als ein vorgegebener Schwellenwert wird, steht fest, daß der Lernvorgang abgeschlossen ist.
Wenn der Standort einer sprechenden Person und die Positionen der Mikrophone auf einen vorgegebenen Bereich beschränkt sind, werden die Sprachinformationen zum Lernen auch unter den entsprechenden Bedingungen eingegeben und das interne Sprachsignal unter Berücksichtigung der Pegel und der Phasenunterschiede zwischen den Mikrofonen bei dieser Anordnung erzeugt. Dadurch wird die Effektivität der Verbesserung des Rauschabstandes bedeutend erhöht. Wenn für den Standort der sprechenden Person ein gewisser Bereich erlaubt werden soll, entspricht die Lern-Eingangssprache ebenfalls diesem Bereich. Die entsprechenden Bedingungen können leicht abgeleitet werden, beispielsweise auch durch eine interne Synthetisierung auf der Basis der Grundlagen der Akustik (beispielsweise reicht es, die Verzögerung des Sprachsignales, die sich aus dem Abstand zwischen der sprechenden Person und dem Mikrofon ergibt, und das quadratische Gesetz der Abschwächung zu berücksichtigen).
Es ist anzumerken, daß es auch möglich ist, das Eingangssignal einer komplexen Fourier-Transformation oder dergleichen zu unterwerfen und es dann beispielsweise im Frequenzraum in das neuronale Netz einzugeben. In einem solchen Fall kann die Eingangsschicht für die Frequenz und die Phase oder für den Realteil und den Imaginärteil in zweidimensionaler Form vorgesehen sein. Der Ausgang kann ein Ausgangssignal im Frequenzbereich sein, das in den Wellenformbereich rücktransformiert wird. Bei diesen Verfahren wird eine der bekannten Raumprojektionstransformationen und eine entsprechende inverse Transformation benötigt.
Einige Anwendungen des vorstehend beschriebenen Filters sind in der Fig. 3 dargestellt.
Die Spracherkennung kann beispielsweise dadurch verbessert werden, daß ein gemäß der vorstehenden Beschreibung aufgebauter Rauschfilter 301 vor einer Spracherkennungsvorrichtung 302 angeordnet wird, um daraus ein verbessertes Ausgangssignal 303 zu erhalten.
Der Rauschfilter 301 kann auch einer Sprachkodiervorrichtung 304 vorgeschaltet werden, wodurch an dessen Ausgang 305 eine kodierte Sprache erhalten wird, die leicht zu erkennen ist, so daß auch bei einem sehr hohen Geräuschpegel eine Sprachverbindung möglich ist.
Der Rauschfilter 301 kann schließlich auch vor einem gewöhnlichen Sprachanalysegerät 306 angeordnet werden, wodurch es möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel festzustellen, wenn beispielsweise von einem Menschen die Stimme angehoben wird, um die Hintergrundgeräusche zu übertönen, wodurch die Sprache von ihrer üblichen Form abweicht.
Der bei dem erfindungsgemäßen Verfahren bzw. der Vorrichtung zur Vorbearbeitung von Sprachsignalen verwendete Sprachdatenfilter weist somit eine Anzahl von Mikrofonen auf, die im Abstand voneinander angeordnet sind. Der auf die Mikrofone einwirkende Schall wird in nachgeschalteten A/D-Konverten in ein digitales serielles Signal umgewandelt, das ein Eingangssignal für ein neuronales Netzwerk bildet. Das neuronale Netzwerk blendet Hintergrundgeräusche aus, wobei teilweise Daten verwendet werden, die aus den Parallelax-Informationen erhalten werden, die durch die versetzte Anordnung der Mikrofone gewonnen werden. Die aus dem neuronalen Netzwerk erhaltenen Daten werden dann zu einem digitalen Signalprozessor übertragen, um das Rauschen herauszufiltern.

Claims (15)

1. Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen, gekennzeichnet durch
  • - eine Anzahl von räumlich getrennt angeordneten Wandlern (103, 104, 105; 201) zum Erzeugen einer Anzahl von elektrischen Sprachsignalen, die dem auf die Wandler einwirkenden Schall entsprechen;
  • - ein neuronales Netzwerk mit einer Anzahl von Schichten (114, 117, 119, 121), wobei jede Schicht aus einer Anzahl von Neuron-Elementen (115, 116; 118; 120; 122) besteht und die Schichten eine Eingangsschicht (114) und eine Ausgangsschicht (121) beinhalten;
  • - eine erste Kommunikationseinrichtung (106, 112), um das elektrische Sprachsignal von einem ersten (103) der Wandler zu jedem Element (115) eines ersten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen; und durch
  • - eine zweite Kommunikationseinrichtung (107, 113), um das elektrische Sprachsignal von einem zweiten (104) der Wandler zu jedem Element (116) eines zweiten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß jeder der Wandler (103, 104) eine Einrichtung zur Erzeugung eines analogen elektrischen Sprachsignales aufweist, das dem darauf einwirkenden Schall entspricht, und daß die erste und die zweite Kommunikationseinrichtung jeweils eine Einrichtung (106; 107) zur Umwandlung des analogen elektrischen Sprachsignales in ein erstes bzw. zweites serielles digitales Sprachsignal enthält.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die erste und die zweite Kommunikationseinrichtung jeweils ein Schieberegister (112; 113) zum Umwandeln der ersten bzw. zweiten seriellen digitalen Signale in eine entsprechende erste bzw. zweite Serie von Ausgangssignalen aufweisen, wobei die Ausgangssignale der ersten und zweiten Serien jeweils das Eingangssignal für ein Neuron-Element (115; 116) des ersten und zweiten Satzes der Eingangsschicht (114) bilden.
4. Vorrichtung nach Anspruch 3, gekennzeichnet durch einen Schalter (203) zum selektiven Anlegen eines reinen elektrischen Sprachsignales und eines gemischten elektrischen Sprach/Rauschsignales an das neuronale Netzwerk, und durch eine Einrichtung zum Ausführen eines überwachten Lernvorganges im neuronalen Netzwerk in Übereinstimmung mit dem zugeschalteten reinen elektrischen Sprachsignal und dem zusammengesetzten elektrischen Sprach/Rauschsignal, wodurch Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des Neuronalen Netzes darstellen.
5. Vorrichtung nach Anspruch 3, gekennzeichnet durch eine Einrichtung (207) zum Übertragen der neuronalen Gewichtungsdaten vom neuronalen Netzwerk zu einem digitalen Signalprozessor, und durch einen digitalen Signalprozessor (208) zum Verarbeiten zusammengesetzter Sprach/Rauschsignale in Übereinstimmung mit den neuronalen Gewichtungsdaten.
6. Vorrichtung nach Anspruch 4, gekennzeichnet durch eine Einrichtung zur Ausführung einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.
7. Vorrichtung nach Anspruch 4, gekennzeichnet durch
  • - eine Anzahl N zusätzlicher räumlich getrennter Wandler zur Erzeugung einer Anzahl von elektrischen Sprachsignalen, die einem darauf einwirkenden Schall entsprechen, wobei N eine positive ganze Zahl größer als Null ist;
  • - N zusätzliche Kommunikationseinrichtungen zum Übertragen des elektrischen Sprachsignales von jedem der N zusätzlichen Wandler zu jedem Element eines N-ten Satzes von Neuron-Elementen in der Eingangsschicht;
  • - wobei jeder der zusätzlichen N Wandler eine Einrichtung zum Erzeugen eines analogen elektrischen Sprachsignales entsprechend dem darauf einwirkenden Schall enthält;
  • - wobei die zusätzlichen N Kommunikationseinrichtungen eine Einrichtung zur Umwandlung des analogen elektrischen Sprachsignales in das jeweilige N-te serielle digitalisierte Sprachsignal enthalten; und
  • - wobei jede der zusätzlichen N Kommunikationseinrichtungen Schieberegister zur Umwandlung der ersten bzw. zweiten seriellen digitalisierten Signale in die entsprechende N-te Serie von Ausgangssignalen enthält, wobei jedes Ausgangssignal der N-ten Serie ein Eingangssignal für ein Neuron-Element des N-ten Satzes der Eingangsschicht darstellt.
8. Verfahren zur Rauschverringerung in akustischen Signalen, gekennzeichnet durch die Verfahrensschritte
  • (a) des Aufnehmens von Schallwellen aus einer Anzahl von Positionen;
  • (b) des Erzeugens einer Anzahl von elektrischen Schallsignalen, die den Schallwellen von jeder der Positionen entsprechen;
  • (c) des Übertragens der elektrischen Schallsignale jeweils zu einem Satz von Neuron-Elementen (115; 116) in einer Eingangsschicht (114) eines neuronalen Netzwerkes,
  • (d) des Berechnens eines Ausgangssignales in dem neuronalen Netzwerk, das von den elektrischen Schallsignalen am ersten und zweiten Satz von Neutronen abgeleitet wird; und
  • (e) des Abgebens der Ausgangssignale von einer Ausgangsschicht (121) der Neuronen des neuronalen Netzwerkes.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß der Verfahrensschritt (b) das Erzeugen einer Anzahl analoger elektrischer Sprachsignale und das Umwandeln der Anzahl analoger elektrischer Sprachsignale in eine entsprechende Anzahl serieller digitalisierter Sprachsignale umfaßt; und daß der Verfahrensschritt (c) die Übermittlung jedes der digitalen Sprachsignale zu dem entsprechenden Satz von Neuron-Elementen (115; 116) der Eingangsschicht (114) des neuronalen Netzwerkes beinhaltet.
10. Verfahren nach Anspruch 10, gekennzeichnet durch die weiteren Verfahrensschritte des selektiven Anlegens eines reinen elektrischen Sprachsignales und eines gemischten elektrischen Sprach/Rauschsignales an das neuronale Netzwerk und des Ausführens eines überwachten Lernvorganges im neuronalen Netzwerk in Übereinstimmung mit dem zugeschalteten reinen elektrischen Sprachsignal und dem zusammengesetzten elektrischen Sprach/Rauschsignal, wodurch Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes darstellen.
11. Verfahren nach Anspruch 10, gekennzeichnet durch die weiteren Verfahrensschritte des Übertragens der neuronalen Gewichtungsdaten von dem neuronalen Netzwerk zu einem digitalen Signalprozessor (208), des Übergebens gemischter Sprach/Rauschsignale vom neuronalen Netzwerk zum Signalprozessor; und des Verarbeitens der zusammengesetzten Sprach/Rauschsignale im Signalprozessor in Übereinstimmung mit den neuronalen Gewichtungsdaten.
12. Verfahren nach Anspruch 10, gekennzeichnet durch den weiteren Verfahrensschritte des Ausführens einer Fourier-Transformation an wenigstens einem der elektrischen Sprachsignale, bevor dieses an das neuronale Netzwerk gegeben wird.
13. Vorrichtung zur Verringerung von Signalrauschen, gekennzeichnet durch
  • - eine Anzahl räumlich getrennter Wandler (103, 104, 105; 201) zur Erzeugung einer Anzahl von elektrischen Sprachsignalen, die einem darauf einwirkenden Schall entsprechen;
  • - eine Anzahl von digitalisierenden Einrichtungen (106, 107, 108; 202) zum Umwandeln von analogen gemischten Sprach/Rauschsignalen in digitale Sprach/Rauschsignale;
  • - eine Einrichtung (207) zum Übertragen digital kodierter neuronaler Gewichtungsdaten von einem neuronalen Netzwerk zu einem digitalen Signalprozessor;
  • - einem digitalen Signalprozessor (208) zum Verarbeiten der digitalen gemischten Sprach/Rauschsignale von den Wandlern in Übereinstimmung mit den Gewichtungsdaten in gefilterte digitale Schalldaten; und durch
  • - eine Einrichtung zum Übertragen der gefilterten digitalen Schalldaten zu einer entsprechenden Empfangseinrichtung für die digitalen Schalldaten.
14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, daß die Empfangseinrichtung für die digitalen Schalldaten eine Einrichtung zum Erzeugen analoger gefilterter Schalldaten aus den digitalen gefilterten Schalldaten aufweist.
15. Vorrichtung nach Anspruch 14, gekennzeichnet durch einen Lautsprecher zum Erzeugen gefilteter Schallwellen aus den analogen gefilterten Schalldaten.
DE19893929481 1988-09-07 1989-09-05 Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen Granted DE3929481A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22230988A JPH0272398A (ja) 1988-09-07 1988-09-07 音声信号用前処理装置

Publications (2)

Publication Number Publication Date
DE3929481A1 true DE3929481A1 (de) 1990-03-15
DE3929481C2 DE3929481C2 (de) 1991-07-04

Family

ID=16780341

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19893929481 Granted DE3929481A1 (de) 1988-09-07 1989-09-05 Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen

Country Status (2)

Country Link
JP (1) JPH0272398A (de)
DE (1) DE3929481A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4243831A1 (de) * 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
DE19844748A1 (de) * 1998-09-29 1999-10-07 Siemens Audiologische Technik Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
WO2002056302A2 (en) * 2001-01-10 2002-07-18 Ericsson Inc. Noise reduction apparatus and method

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (de) * 1989-11-28 1995-02-01 Nec Corporation Sprach-/Sprachfrequenzband-Daten-Diskriminator
JPH0462599A (ja) * 1990-07-02 1992-02-27 N T T Data Tsushin Kk 雑音除去装置
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
KR100292919B1 (ko) * 1992-03-30 2001-06-15 야스카와 히데아키 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
EP0712261A1 (de) * 1994-11-10 1996-05-15 Siemens Audiologische Technik GmbH Programmierbares Hörgerät
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
CN108766440B (zh) 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0126420A1 (de) * 1983-05-18 1984-11-28 Speech Systems, Inc. Spracherkennungssystem

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0126420A1 (de) * 1983-05-18 1984-11-28 Speech Systems, Inc. Spracherkennungssystem

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
In: DE-Z.: Elektronik, H. 8, 15.4.1988, S. 102-113 *
M.I.T. Press, "Parallel Distributed Processing", Bd. 1, 1986, Kap. 8, S. 318-362 *
Proceedings of ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13, Mai 1988, S. 253-294 *
S. Tamura, A. Waibel: "Noise Reduction Using Connectionist Models", in: Proc. of the Int. Conf. on A coustics, Speech and Signal Proc. ICASSP, April 1988 paper identification number 862 A 25.7, S. 53-56, Osaka, JP *
WEICK, Manfred Wie können Computer lernen? *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4243831A1 (de) * 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5479517A (en) * 1992-12-23 1995-12-26 Daimler-Benz Ag Method of estimating delay in noise-affected voice channels
DE19844748A1 (de) * 1998-09-29 1999-10-07 Siemens Audiologische Technik Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
US6868045B1 (en) 1999-09-14 2005-03-15 Thomson Licensing S.A. Voice control system with a microphone array
WO2002056302A2 (en) * 2001-01-10 2002-07-18 Ericsson Inc. Noise reduction apparatus and method
WO2002056302A3 (en) * 2001-01-10 2003-04-03 Ericsson Inc Noise reduction apparatus and method
US6738481B2 (en) 2001-01-10 2004-05-18 Ericsson Inc. Noise reduction apparatus and method

Also Published As

Publication number Publication date
JPH0272398A (ja) 1990-03-12
DE3929481C2 (de) 1991-07-04

Similar Documents

Publication Publication Date Title
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE3819178C2 (de)
DE2023570C2 (de) Einseitenband-Modulationssystem
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE3929481C2 (de)
DE2524497B2 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
EP0719483A1 (de) Verfahren zum bestimmen der zu wählenden codierungsart für die codierung von wenigstens zwei signalen
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
DE3938645C1 (de)
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2125230B2 (de) Verfahren und Schaltungsanordnung zur modifizierenden Verarbeitung digitaler Informationssignalfolgen
DE2949582A1 (de) Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
EP0554494B1 (de) Adaptives nichtrekursives Digitalfilter
DE112021001228T5 (de) Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
DE2125391A1 (de) Endgerätsystem zur Verbindung einer Vielzahl von Benutzerkanälen über einen Übertragungskanal begrenzter Bandbreite
DE2609297B2 (de) Übertragungssystem für Gesprachssignale
DE1499327A1 (de) Rechenanlage
WO2014094709A2 (de) Verfahren zur ermittlung wenigstens zweier einzelsignale aus wenigstens zwei ausgangssignalen
DE4209296A1 (de) Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren
DE2435654C2 (de) Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
DE3037276A1 (de) Tonsynthesizer
DE1284127B (de) Funktionsgenerator fuer spezielle Autokorrelationsfunktionen
DE19628503A1 (de) Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten
DE1206476B (de) Verfahren und Anordnung zur Impulsumkehrung bei einem mit Binaerimpulsen arbeitendenNachrichtenuebertragungssystem

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

D2 Grant after examination
8363 Opposition against the patent
8330 Complete disclaimer