DE3929481A1 - Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen - Google Patents
Verfahren und vorrichtung zur vorbearbeitung von sprachsignalenInfo
- Publication number
- DE3929481A1 DE3929481A1 DE19893929481 DE3929481A DE3929481A1 DE 3929481 A1 DE3929481 A1 DE 3929481A1 DE 19893929481 DE19893929481 DE 19893929481 DE 3929481 A DE3929481 A DE 3929481A DE 3929481 A1 DE3929481 A1 DE 3929481A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- signal
- neural network
- speech
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Description
Die Erfindung betrifft allgemein die Signalverarbeitung und
insbesondere ein Verfahren und eine Vorrichtung zur Vorbearbeitung
von Sprachsignalen, um den Rauschabstand bei den
einem Sprachprozessor zugeführten Sprachsignalen zu verbessern.
Es sind einige Verfahren zur Verbesserung des Rauschabstandes
bei Sprachsignalen bekannt, wobei die Frequenzeigenschaften
des Rauschens vorab untersucht werden, um die
Rauschkomponente dann vom Sprachsignal subtrahieren zu können.
Diese bekannte Verfahren beruhen jedoch auf der falschen
Annahme, daß das Hintergrundrauschen (das Hintergrundgeräusch)
gleichmäßig ist. Solches Systeme arbeiten typisch
mit zwei Mikrofoneingängen, um die entsprechenden Signale
substrahieren zu können und dadurch das Hintergrundrauschen
auszublenden. Es wurde auch bereits die Verwendung eines
sogenannten neuronalen Netzwerkes diskutiert (Proceedings of
ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13,
Seiten 253 bis 294, Mai 1988).
Das aus der letztgenannten Druckschrift bekannte System
zeigt eine verbesserte Leistungsfähigkeit und hat einen
Rauschabstand, der dem früherer Techniken überlegen ist, es
hat sich jedoch herausgestellt, daß dabei die Verständlichkeit
herabgesetzt ist.
Die Bezeichnung "neuronales Netzwerk" schließt hier zwei
Arten der neuronalen Netzwerk ein. Bei der ersten Art besteht
das neuronale Netzwerk aus gleichwertigen parallel
verarbeitenden Elementen, die untereinander entsprechend
einer dynamisch selbstorganisierenden Programmierung auf
eine nichtüberwachte, das heißt selbstlernende Weise verbunden
werden, unabhängig davon, ob ein "Lehrer" vorhanden
ist oder nicht. Bei der zweiten Art des neuronalen Netzwerkes
besteht das Netzwerk aus gleichwertigen, parallel verarbeitenden
Elementen, die vorab durch Lernen fest miteinander
verbunden werden. Ein solches Netzwerk kann dann später
nichts mehr "lernen".
Die menschliche Sprache wird aus dem Mund als eine Folge von
Verdichtungen und Verdünnungen der Luftmoleküle abgegeben.
Die sprachbildenden Organe, über die die Sprachinformationen
ausgegeben werden, sind bei jedem Menschen anders. Durch die
physikalischen Unterschiede zwischen den einzelnen Menschen
weichen die physikalischen Eigenschaften der Sprachsignale,
wenn sie als physikalische Signale betrachtet werden, erheblich
voneinander ab. Darüber hinaus wird von den verschiedensten
Schallquellen aus den verschiedensten Richtungen Rauschen
oder ein Hintergrundgeräusch erzeugt. Die Abweichungen
in den physikalischen Eigenschaften von Sprachsignalen weisen
daher keine Gemeinsamkeiten auf.
Aufgabe der Erfindung ist es, ein Verfahren und eine Vorrichtung
zu schaffen, mit dem bzw. mit der Sprachdaten mit
verbesserter Verständlichkeit und Klarheit erhalten werden
können.
Zur Lösung dieser Aufgabe werden bei dem erfindungsgemäßen
Verfahren bzw. der entsprechenden Vorrichtung die Signale
einer Anzahl von Wandlern, die Schall in elektrische Signale
umwandeln, wie beispielsweise Mikrofone, als Eingangssignale
eines neuronalen Netzwerkes verwendet. Die sprachliche Konversation
wird vom Menschen ja ohne Schwierigkeiten ausgeführt,
auch bei einem hohen Geräuschpegel, teilweise durch
die Benutzung von beiden Ohren. Die Anzahl von Mikrofonen
ergibt Eingangsinformationen, wie etwa Parallax-Informationen,
die das neuronale Netzwerk verwenden kann, um eine
Schallfilterung auszuführen.
Das neuronale Netzwerk führt einen Lernvorgang derart aus,
daß nur physikalische Eigenschaften, die den Eingangssignalen
von einer Anzahl von Mikrofonen und einem reinen Sprachsignal,
das zum Lernen von der Ausgangsseite des Netzwerkes
zugeführt wird, gemeinsam sind, durchgelassen werden. Alle
anderen Signale werden ausgefiltert. Es werden somit nur Signale
durchgelassen, die ausschließlich die physikalischen
Eigenschaften der Sprache aufweisen, während die Rauschkomponente
unterdrückt wird. Der Rauschabstand des Systems wird
dadurch wesentlich verbessert.
Mit dem erfindungsgemäßen Verfahren und der entsprechenden
Vorrichtung ist es möglich, den Rauschabstand von Sprachinformationen
zu erhöhen, die bei einem sehr hohen Geräuschpegel
erfaßt werden. Es werden somit die folgenden Vorteile
erhalten:
Die Sicherheit der Spracherkennung wird dadurch erhöht, daß
ein erfindungsgemäßer Filter vor einer Spracherkennungsvorrichtung
angeordnet wird.
Die Sicherheit der Erkennung wird auch dadurch erhöht, daß
der erfindungsgemäße Filter vor einer Sprachkodiervorrichtung
angeordnet wird, wodurch eine kodierte Sprache mit einem
hohen Rauschabstand, die leicht zu erkennen ist, erhalten
wird, so daß eine Sprachkommunikation auch bei hohem
Geräuschpegel ausgeführt werden kann.
Die Sicherheit der Erkennung wird auch dadurch erhöht, daß
der erfindungsgemäße Filter vor einem der gewöhnlichen verschiedenen
Arten von Sprachanalysegeräten angeordnet wird,
wodurch es möglich ist, Verzerrungen der Sprache bei einem
hohen Geräuschpegel festzustellen (unter solchen Bedingungen
wird von einem Menschen die Stimme im allgemeinen angehoben,
um das Rauschen zu übertönen, wodurch die Sprache von ihrer
gewöhnlichen Form abweicht).
Mit dem erfindungsgemäßen System ist es daher möglich, den
Rauschabstand bei Sprachdaten zu erhöhen, ohne daß gleichzeitig
die Verständlichkeit verschlechtert wird.
Ein Ausführungsbeispiel des erfindungsgemäßen Systems wird
im folgenden anhand der Zeichnung näher erläutert. Es
zeigt
Fig. 1 den Aufbau eines Filters zur Verbesserung des
Rauschabstandes mit einer Darstellung des Lernprozesses,
der damit verbunden ist;
Fig. 2 eine Vorrichtung, bei der der Filter der Fig. 1
verwendet wird; und
Fig. 3 Beispiele zur Verwendung des erfindungsgemäßen
Systems.
In der Fig. 1 ist die Anordnung eines Filters zur Verbesserung
des Rauschabstandes, der ein neuronales Netzwerk enthält,
dargestellt. Die Fig. 2 zeigt die Anwendung dieses
Filters bei einem filternden und lernenden System.
Das in der Fig. 1 gezeigte neuronale Netzwerk besteht aus
einer Anzahl von "Neuronen", die in einer ersten bis vierten
Schicht 114, 117, 119 und 121 angeordnet sind. Wie es allgemein
bekannt ist, können die einzelnen Neuronen durch Verarbeitungseinheiten
gebildet werden, die eine Bewertung oder
Gewichtung der Signale an ihrem Eingang vornehmen, oder sie
können durch eine herkömmliche Von-Neuman-Maschine emuliert
werden. Zum Aufbau des Netzwerkes können selbstverständlich
auch mehr oder weniger Neuronen und/oder Schichten bzw.
Ebenen wie in der Fig. 1 verwendet werden.
Wie in der Fig. 2 gezeigt, werden Sprachsignale 101 und
Rauschsignale 102, die einer Anzahl von Mikrofonen 201 eingegeben
werden, durch einen multiplexenden A/D-Konverter 202
digitalisiert und dann zu einem Schalter 203 geführt. Im
Lernmodus wird das digitalisierte Signal vom Schalter 203 zu
einem internen Bus 204 geführt und unter der Steuerung eines
Mikroprozesses (µ-CPU) 205 in einem Speicher 206 gespeichert,
um entsprechend der im Mikroprozessor 205 enthaltenen
Prozeduren das neuronale Netz aufzubauen. Das Ergebnis des
Lernens wird in der Form von Gewichtungsfaktoren für die
Verbindungen zwischen den Elementen des neuronalen Netzes
erhalten.
Jeder so bestimmte Gewichtungsfaktor wird über einen Signalleitung
207 zu einem digitalen Signalprozessor (DSP) 208 gegeben,
der ein neuronales Netzwerk zur Rauschfilterung enthält.
Der digitale Signalprozessor 208 stellt somit ein
neuronales Netzwerk zur Rauschfilterung dar, bei dem die Gewichtungen
bereits festgelegt ("gelernt") sind. Wenn das
System als Rauschfilter verwendet wird, wird das Eingangs-Sprachsignal
101 (und das Rauschsignal 102) direkt über die
Mikrofone 201, den A/D-Konverter 202 und den Schalter 203 in
den Signalprozessor 208 eingegeben, um ein Signal 209 mit
verbessertem Rauschabstand am Ausgang des Prozesses 208 zu
erhalten. Wenn die Anordnung nur als Rauschfilter verwendet
wird, brauchen die zum Lernen benötigten Elemente natürlich
nicht immer vorhanden zu sein.
Die Arbeitsweise dieses Rauschfilters und die Lernprozedur
wird anhand der Fig. 1 beschrieben. Beim Lernen können einige
der in der Fig. 1 gezeigten Teile durch virtuelle Teile
des Mikroprozessors 205 und des Speichers 206 der Fig. 2
realisiert werden, während sich bei der Ausführung einer
tatsächlichen Operation nur diejenigen Teile im Signalprozessor
208 befinden, die den in den Fig. 1 gezeigten Filter
bilden. Es ist natürlich auch möglich, daß sich die Mikrofone
201 und der A/D-Konverter 202 an einem anderen Ort
befinden und über eine digitale Leitung mit dem Signalprozessor
208 verbunden sind, der dann allein die Vorrichtung
bildet.
Zur Vereinfachung erfolgt die Beschreibung mit Bezug auf
eine Anordnung, die zwei Eingangssysteme beinhaltet. Die
Anordnung kann jedoch auf die gleiche Weise auch drei oder
mehr Eingangssystem beinhalten.
Bei der Darstellung der Fig. 1 ist angenommen, daß das Ausgangssignal
des q-ten Neuron-Elementes in der p-ten Schicht
gleich O p,q und das Ausgangssignal des r-ten Elementes in
der (p-1)-ten Schicht gleich O p-1,r ist. Zur Vereinfachung
der Beschreibung wird weiter angenommen, daß die Übertragungseigenschaft
zwischen dem Eingang x und dem Ausgang y
für alle Elemente gleich ist und dargestellt wird durch
y = f(x). (1)
Dann gilt folgendes:
I p,q = Σ w p-1,q,r (O) p-1,r (2)
O p,q = f(I p,q). (3)
Aus der Gleichung (2) ist ersichtlich, daß die Verarbeitung
viele Berechnungen zur Bildung der Summe von Produkten beinhaltet,
die der Signalprozessor ausführt. Das neuronale
Netzwerk beinhaltet vorzugsweise eine große Anzahl von Neuron-Elementen,
die die durch die Gleichung (3) ausgedrückte
Eigenschaften haben und die miteinander in einer hierarchischen
Struktur verbunden sind. Es ist anzumerken, daß, obwohl
das in der Fig. 1 gezeigte neuronale Netzwerk aus vier
Schichten oder Ebenen besteht, die Anzahl der Schichten
nicht notwendigerweise auf vier begrenzt ist.
Das Gemisch aus den Sprachsignalen 101 und dem Rauschen 102,
das über die Mikrofone 103 und 104 den A/D-Konvertern 106
und 107 zugeführt wird, wird dort in digitale Signale umgewandelt,
die zu Schieberegistern 112 bzw. 113 weitergeleitet
werden. Die Schieberegister 112 und 113 sind zusammen mit
einem Schieberegister 124 (später noch genauer erläutert)
dafür vorgesehen, aufeinanderfolgend die Daten synchron zur
Abtastperiode der A/D-Konverter zu verschieben und in jeder
Stufe Daten auszugeben. Die Ausgangssignale der verschiedenen
Stufen der Schieberegister 112 und 113 werden dann jeweils
den Elementen 115 bzw. 116 in der ersten (Eingangs-)
Schicht 114 des neuronalen Netzwerkes zugeführt.
Die Ausgangssignale der Elemente 115 und 116 der ersten
Schicht werden auf der Basis der durch die Gleichungen (2)
und (3) ausgedrückten Beziehungen zu den Elementen 118 der
zweiten Schicht 117 weitergeleitet. Das gleiche gilt für die
Verbindung zwischen den Elementen 118 in der zweiten Schicht
117 und den Elementen 120 in der dritten Schicht 119 sowie
der Verbindung zwischen den Elementen 120 in der dritten
Schicht 119 und den Elementen 122 in der vierten (Ausgangs-)
Schicht 121. Durch die Verarbeitung der Signale in den Elementen
auf der Basis der Beziehungen, die durch die Gleichungen
(2) und (3) dargestellt werden, werden Signale 128
mit einem verbesserten Rauschabstand an den Ausgangsanschlüssen
123 der Ausgangsschicht 121 abgegeben. Wenn das
Ausgangssignal von einem der Ausgangsanschlüsse 123 als
externes Ausgangssignal herausgenommen wird, wird ein Ausgangs-Sprachsignal
209 (Fig. 2) mit verbessertem Rauschabstand
erhalten.
Es folgt eine Beschreibung des Lernvorganges bei dem neuronalen
Netzwerk, das den Rauschfilter bildet.
Das rückwärtsschreitende Verfahren, das bei der Architektur
neuronaler Netzwerke bekannt ist, wird für den Lernvorgang
bei dem vorliegenden System geeignet angewendet. Ein solches
rückwärtsschreitendes Verfahren ist beispielsweise in der
Literaturstelle M.I.T. Press, "Parallel Distributed Processing"
Band 1 (1986), Kap. 8, Seiten 318 bis 362 beschrieben.
Der Lernvorgang wird nun mit Bezug auf die Fig. 1 erläutert.
Zur Vereinfachung werden einige Symbole eingeführt. Der Wert
des Ausgangssignales 128 eines jeden Elementes 122 in der
Ausgangsschicht 121 wird mit O₄,i bezeichnet, der Wert des
Ausgangssignales des j-ten Elementes der dritten Schicht 119
mit O₃,j , der Wert des Ausgangssignales des k-ten Elementes
in der zweiten Schicht 117 mit O₂,k , und ein Soll-Ausgangswert,
der als Lerneingang an das i-te Element in der vierten
Schicht 121 angelegt wird, mit T₄,i . Bezüglich des Fehlersignales,
das für jedes Signal im Verlauf des Rückwärtsschreitens
erhalten wird, wird der Wert des Fehlersignals für das
i-te Element in der vierten Schicht 121 mit δ₄,i , der Wert
des Fehlersignales für das j-te Element in der dritten
Schicht 119 mit δ₃,j , und der Wert des Fehlersignales für
das k-te Element in der zweiten Schicht 117 mit δ₂,k bezeichnt.
Des weiteren wird angenommen, daß die Übertragungseigenschaften
der Elemente in allen Schichten die
gleichen sind und derjenigen entsprechen, die durch die
Gleichung (3) ausgedrückt wird. Es sei außerdem f′ die Ableitung
der Funktion f. Der Verbindungsfaktor zwischen dem
i-ten Element in der Ausgangsschicht 121 und dem j-ten
Element in der dritten Schicht 119 wird mit w₃,i,j bezeichnet,
und der Verbindungsfaktor zwischem dem j-ten Element in
der dritten Schicht 119 und dem k-ten Element in der zweiten
Schicht 117 mit w₂,j,k .
Zum Lernen werden verschiedene Sprachtypen 101 und verschiedene
Rauschtypen 102 getrennt in die Mikrofone 103, 104 und
105 eingegeben. Das in das Mikrofon 105 eingegebene Signal
besteht aus einem reinen Sprachsignal, es wird für den Soll-Ausgangswert
T₄,i verwendet. Die Signale werden in den jeweiligen
Speichern 109, 110 und 111 (Bereiche im Speicher
206 der Fig. 2) gespeichert. Die gespeicherte Sprache und
das gespeicherte Rauschen werden in Addierern 129 und 130
addiert, um Signale zusammenzusetzen, denen ein Rauschen
überlagert ist. Diese Signale werden zu den Schieberegistern
112 und 113 gegeben. Daten über das Ausmaß, in dem das Rauschen
überlagert ist, und über die Kombination von Sprache
und Rauschen werden für verschiedene erwartete Zustände
wiederholt vorbereitet und als Lern-Eingangssignale verwendet.
Bei der tatsächlichen Ausführung wird die Überlagerung
durch Verwendung einer arithmetischen Funktion des Mikroprozessors
205 der Fig. 2 ausgeführt. Der Soll-Ausgangswert
T₄,i ist ein Sprachsignal, das dem Lern-Eingangssignal entspricht,
und es setzt den Grad fest, bis zu dem die Sprache
im Lern-Eingangssignal als Ergebnis der Verbesserung des
Rauschabstandes verbessert werden soll. Das Eingangsmikrofon
105, der A/D-Konverter 108 und der Speicher 111 für den
Soll-Ausgangswert T₄,i können auch für einen Eingabe verwendet
werden, das heißt als Mikrofon 103 (oder 104), D/A-Konverter
106 (oder 107) und Speicher 109 (oder 110), wie es
durch die Verbindungslinie 127 gezeigt wird. Die Sprache für
den Soll-Ausgangswert T₄,i wird dem Schieberegister 124 eingegeben
und die Ausgangssignale 125 aus den verschiedenen
Stufen des Schieberegisters 124 werden den entsprechenden
Elementen 122 in der Ausgangsschicht 121 des neuronalen
Netzwerkes als Soll-Ausgangssignale 125 eingegeben.
Wenn jedem Element in der ersten Schicht 114 ein Lern-Eingangssignal
(Sprache und Rauschen einander überlagert) eingegeben
wird, wird auf der Basis der Beziehungen, die durch
die Gleichungen (2) und (3) ausgedrückt werden, aufeinanderfolgend
von jedem Element von der Eingangsschicht zur Ausgangsschicht
ein Ausgangssignal erhalten. Nachdem das Ausgangssignal
für jedes Element erhalten wurde, werden aufeinanderfolgend
von der Ausgangsschicht 121 bis zu den unteren
Schichten Fehlersignale ermittelt. Die Korrektur der Verbindungsfaktoren
zwischen der p-ten Schicht und (p+1)-ten
Schicht erfolgt unter Verwendung der Fehlersignale für die
(p+1)-te Schicht und den Werten der Ausgangssignale in der
p-ten Schicht. Im folgenden wird zur Vereinfachung nur der
Vorgang zur Korrektur der Verbindungsfaktoren w₃,i,j und
w₂,j,k erläutert. Für die folgenden Schichten wird der entsprechende
Vorgang wiederholt, bis hinunter zur Eingangsschicht.
Zur Korrektur der Verbindungsfaktoren w₃,i,j und w₂,j,k werden
den Wert O₂,k des Ausgangssignales des k-ten Elementes
in der zweiten Schicht 117, der Wert O₃,j des Ausgangssignales
des j-ten Elementes in der dritten Schicht 119, der
Wert δ₃,i,j des Fehlersignales des j-ten Elementes in der
dritten Schicht 119 und der Wert δ₄,i des Fehlersignales des
i-ten Elementes in der vierten (Ausgangs-) Schicht 121 benötigt.
Die Werte für O₂,k und O₃,j können durch eine Vorwärtsrechnung
durch Anlegen von Eingangssignalen an die erste
Schicht 114 erhalten werden, wie oben beschrieben. Die
Werte δ₄,i δ₃,j können aus den folgenden Gleichungen berechnet
werden:
Als nächstes werden w₃,i,j und w₂,j,k korrigiert. Wenn die
Korrekturwerte dabei durch Δ w₃,i,j und Δ w₂,j,k ausgedrückt
werden, können diese Korrekturwerte wie folgt berechnet
werden:
Δ w₃,i,j = α(δ₄,i, ) (O₃,j ) (6)
Δ w₂,k,h = α(δ₃,i, ) (O₂,k ) (7)
α kann durch experimentelles Überprüfen der Konvergenzgeschwindigkeit
eingestellt werden. Die Gleichungen (6) und
(7) ermöglichen eine Korrektur aller Verbindungsfaktoren
zwischen der Ausgangsschicht und der dritten Schicht und
zwischen der dritten und der zweiten Schicht. Die Verbindungsfaktoren
zwischen der zweiten Schicht und der Eingangsschicht
können auf die gleiche Weise korrigiert werden wie
die Verbindungsfaktoren zwischen der dritten und der zweiten
Schicht.
Auf diese Weise werden alle Verbindungsfaktoren einmal korrigiert.
Mit anderen Eingangsdaten und Sollwerten (solchen,
die sich von den obigen Werten bezüglich der Stimme, dem
Rauschen, dem gegenseitigen Pegel und der gegenseitigen Phasenbeziehung
unterscheiden) wird der obige Vorgang zur Korrektur
der Verbindungsfaktoren wiederholt. Jedesmal, wenn
der Vorgang wiederholt wird, wird ein Bewertungsfaktor E wie
folgt ermittelt:
Die Bewertungsfaktoren werden über alle Lernmuster gemittelt.
Wenn der Mittelwert kleiner als ein vorgegebener
Schwellenwert wird, steht fest, daß der Lernvorgang abgeschlossen
ist.
Wenn der Standort einer sprechenden Person und die Positionen
der Mikrophone auf einen vorgegebenen Bereich beschränkt
sind, werden die Sprachinformationen zum Lernen auch unter
den entsprechenden Bedingungen eingegeben und das interne
Sprachsignal unter Berücksichtigung der Pegel und der Phasenunterschiede
zwischen den Mikrofonen bei dieser Anordnung
erzeugt. Dadurch wird die Effektivität der Verbesserung des
Rauschabstandes bedeutend erhöht. Wenn für den Standort der
sprechenden Person ein gewisser Bereich erlaubt werden soll,
entspricht die Lern-Eingangssprache ebenfalls diesem Bereich.
Die entsprechenden Bedingungen können leicht abgeleitet
werden, beispielsweise auch durch eine interne Synthetisierung
auf der Basis der Grundlagen der Akustik (beispielsweise
reicht es, die Verzögerung des Sprachsignales, die
sich aus dem Abstand zwischen der sprechenden Person und dem
Mikrofon ergibt, und das quadratische Gesetz der Abschwächung
zu berücksichtigen).
Es ist anzumerken, daß es auch möglich ist, das Eingangssignal
einer komplexen Fourier-Transformation oder dergleichen
zu unterwerfen und es dann beispielsweise im Frequenzraum in
das neuronale Netz einzugeben. In einem solchen Fall kann
die Eingangsschicht für die Frequenz und die Phase oder für
den Realteil und den Imaginärteil in zweidimensionaler Form
vorgesehen sein. Der Ausgang kann ein Ausgangssignal im Frequenzbereich
sein, das in den Wellenformbereich rücktransformiert
wird. Bei diesen Verfahren wird eine der bekannten
Raumprojektionstransformationen und eine entsprechende inverse
Transformation benötigt.
Einige Anwendungen des vorstehend beschriebenen Filters sind
in der Fig. 3 dargestellt.
Die Spracherkennung kann beispielsweise dadurch verbessert
werden, daß ein gemäß der vorstehenden Beschreibung aufgebauter
Rauschfilter 301 vor einer Spracherkennungsvorrichtung
302 angeordnet wird, um daraus ein verbessertes Ausgangssignal
303 zu erhalten.
Der Rauschfilter 301 kann auch einer Sprachkodiervorrichtung
304 vorgeschaltet werden, wodurch an dessen Ausgang 305 eine
kodierte Sprache erhalten wird, die leicht zu erkennen ist,
so daß auch bei einem sehr hohen Geräuschpegel eine Sprachverbindung
möglich ist.
Der Rauschfilter 301 kann schließlich auch vor einem gewöhnlichen
Sprachanalysegerät 306 angeordnet werden, wodurch es
möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel
festzustellen, wenn beispielsweise von einem
Menschen die Stimme angehoben wird, um die Hintergrundgeräusche
zu übertönen, wodurch die Sprache von ihrer üblichen
Form abweicht.
Der bei dem erfindungsgemäßen Verfahren bzw. der Vorrichtung
zur Vorbearbeitung von Sprachsignalen verwendete Sprachdatenfilter
weist somit eine Anzahl von Mikrofonen auf, die im
Abstand voneinander angeordnet sind. Der auf die Mikrofone
einwirkende Schall wird in nachgeschalteten A/D-Konverten
in ein digitales serielles Signal umgewandelt, das ein Eingangssignal
für ein neuronales Netzwerk bildet. Das neuronale
Netzwerk blendet Hintergrundgeräusche aus, wobei teilweise
Daten verwendet werden, die aus den Parallelax-Informationen
erhalten werden, die durch die versetzte Anordnung
der Mikrofone gewonnen werden. Die aus dem neuronalen Netzwerk
erhaltenen Daten werden dann zu einem digitalen Signalprozessor
übertragen, um das Rauschen herauszufiltern.
Claims (15)
1. Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen,
gekennzeichnet durch
- - eine Anzahl von räumlich getrennt angeordneten Wandlern (103, 104, 105; 201) zum Erzeugen einer Anzahl von elektrischen Sprachsignalen, die dem auf die Wandler einwirkenden Schall entsprechen;
- - ein neuronales Netzwerk mit einer Anzahl von Schichten (114, 117, 119, 121), wobei jede Schicht aus einer Anzahl von Neuron-Elementen (115, 116; 118; 120; 122) besteht und die Schichten eine Eingangsschicht (114) und eine Ausgangsschicht (121) beinhalten;
- - eine erste Kommunikationseinrichtung (106, 112), um das elektrische Sprachsignal von einem ersten (103) der Wandler zu jedem Element (115) eines ersten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen; und durch
- - eine zweite Kommunikationseinrichtung (107, 113), um das elektrische Sprachsignal von einem zweiten (104) der Wandler zu jedem Element (116) eines zweiten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß
jeder der Wandler (103, 104) eine Einrichtung zur Erzeugung
eines analogen elektrischen Sprachsignales aufweist, das dem
darauf einwirkenden Schall entspricht, und daß die erste und
die zweite Kommunikationseinrichtung jeweils eine Einrichtung
(106; 107) zur Umwandlung des analogen elektrischen
Sprachsignales in ein erstes bzw. zweites serielles digitales
Sprachsignal enthält.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß
die erste und die zweite Kommunikationseinrichtung jeweils
ein Schieberegister (112; 113) zum Umwandeln der ersten bzw.
zweiten seriellen digitalen Signale in eine entsprechende
erste bzw. zweite Serie von Ausgangssignalen aufweisen, wobei
die Ausgangssignale der ersten und zweiten Serien jeweils
das Eingangssignal für ein Neuron-Element (115; 116)
des ersten und zweiten Satzes der Eingangsschicht (114)
bilden.
4. Vorrichtung nach Anspruch 3, gekennzeichnet durch einen
Schalter (203) zum selektiven Anlegen eines reinen elektrischen
Sprachsignales und eines gemischten elektrischen
Sprach/Rauschsignales an das neuronale Netzwerk, und durch
eine Einrichtung zum Ausführen eines überwachten Lernvorganges
im neuronalen Netzwerk in Übereinstimmung mit dem
zugeschalteten reinen elektrischen Sprachsignal und dem
zusammengesetzten elektrischen Sprach/Rauschsignal, wodurch
Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften
zwischen den Neuron-Elementen des Neuronalen
Netzes darstellen.
5. Vorrichtung nach Anspruch 3, gekennzeichnet durch eine
Einrichtung (207) zum Übertragen der neuronalen Gewichtungsdaten
vom neuronalen Netzwerk zu einem digitalen Signalprozessor,
und durch einen digitalen Signalprozessor (208) zum
Verarbeiten zusammengesetzter Sprach/Rauschsignale in Übereinstimmung
mit den neuronalen Gewichtungsdaten.
6. Vorrichtung nach Anspruch 4, gekennzeichnet durch eine
Einrichtung zur Ausführung einer Fourier-Transformation an
wenigstens einem der elektrischen Sprachsignale, bevor
dieses an das neuronale Netzwerk gegeben wird.
7. Vorrichtung nach Anspruch 4, gekennzeichnet durch
- - eine Anzahl N zusätzlicher räumlich getrennter Wandler zur Erzeugung einer Anzahl von elektrischen Sprachsignalen, die einem darauf einwirkenden Schall entsprechen, wobei N eine positive ganze Zahl größer als Null ist;
- - N zusätzliche Kommunikationseinrichtungen zum Übertragen des elektrischen Sprachsignales von jedem der N zusätzlichen Wandler zu jedem Element eines N-ten Satzes von Neuron-Elementen in der Eingangsschicht;
- - wobei jeder der zusätzlichen N Wandler eine Einrichtung zum Erzeugen eines analogen elektrischen Sprachsignales entsprechend dem darauf einwirkenden Schall enthält;
- - wobei die zusätzlichen N Kommunikationseinrichtungen eine Einrichtung zur Umwandlung des analogen elektrischen Sprachsignales in das jeweilige N-te serielle digitalisierte Sprachsignal enthalten; und
- - wobei jede der zusätzlichen N Kommunikationseinrichtungen Schieberegister zur Umwandlung der ersten bzw. zweiten seriellen digitalisierten Signale in die entsprechende N-te Serie von Ausgangssignalen enthält, wobei jedes Ausgangssignal der N-ten Serie ein Eingangssignal für ein Neuron-Element des N-ten Satzes der Eingangsschicht darstellt.
8. Verfahren zur Rauschverringerung in akustischen Signalen,
gekennzeichnet durch die Verfahrensschritte
- (a) des Aufnehmens von Schallwellen aus einer Anzahl von Positionen;
- (b) des Erzeugens einer Anzahl von elektrischen Schallsignalen, die den Schallwellen von jeder der Positionen entsprechen;
- (c) des Übertragens der elektrischen Schallsignale jeweils zu einem Satz von Neuron-Elementen (115; 116) in einer Eingangsschicht (114) eines neuronalen Netzwerkes,
- (d) des Berechnens eines Ausgangssignales in dem neuronalen Netzwerk, das von den elektrischen Schallsignalen am ersten und zweiten Satz von Neutronen abgeleitet wird; und
- (e) des Abgebens der Ausgangssignale von einer Ausgangsschicht (121) der Neuronen des neuronalen Netzwerkes.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß
der Verfahrensschritt (b) das Erzeugen einer Anzahl analoger
elektrischer Sprachsignale und das Umwandeln der Anzahl
analoger elektrischer Sprachsignale in eine entsprechende
Anzahl serieller digitalisierter Sprachsignale umfaßt; und
daß der Verfahrensschritt (c) die Übermittlung jedes der
digitalen Sprachsignale zu dem entsprechenden Satz von
Neuron-Elementen (115; 116) der Eingangsschicht (114) des
neuronalen Netzwerkes beinhaltet.
10. Verfahren nach Anspruch 10, gekennzeichnet durch die
weiteren Verfahrensschritte des selektiven Anlegens eines
reinen elektrischen Sprachsignales und eines gemischten
elektrischen Sprach/Rauschsignales an das neuronale Netzwerk
und des Ausführens eines überwachten Lernvorganges im neuronalen
Netzwerk in Übereinstimmung mit dem zugeschalteten
reinen elektrischen Sprachsignal und dem zusammengesetzten
elektrischen Sprach/Rauschsignal, wodurch Neuron-Gewichtungsdaten
erhalten werden, die die Übertragungseigenschaften
zwischen den Neuron-Elementen des neuronalen Netzes
darstellen.
11. Verfahren nach Anspruch 10, gekennzeichnet durch die
weiteren Verfahrensschritte des Übertragens der neuronalen
Gewichtungsdaten von dem neuronalen Netzwerk zu einem digitalen
Signalprozessor (208), des Übergebens gemischter
Sprach/Rauschsignale vom neuronalen Netzwerk zum Signalprozessor;
und des Verarbeitens der zusammengesetzten Sprach/Rauschsignale
im Signalprozessor in Übereinstimmung mit den
neuronalen Gewichtungsdaten.
12. Verfahren nach Anspruch 10, gekennzeichnet durch den
weiteren Verfahrensschritte des Ausführens einer Fourier-Transformation
an wenigstens einem der elektrischen Sprachsignale,
bevor dieses an das neuronale Netzwerk gegeben
wird.
13. Vorrichtung zur Verringerung von Signalrauschen, gekennzeichnet
durch
- - eine Anzahl räumlich getrennter Wandler (103, 104, 105; 201) zur Erzeugung einer Anzahl von elektrischen Sprachsignalen, die einem darauf einwirkenden Schall entsprechen;
- - eine Anzahl von digitalisierenden Einrichtungen (106, 107, 108; 202) zum Umwandeln von analogen gemischten Sprach/Rauschsignalen in digitale Sprach/Rauschsignale;
- - eine Einrichtung (207) zum Übertragen digital kodierter neuronaler Gewichtungsdaten von einem neuronalen Netzwerk zu einem digitalen Signalprozessor;
- - einem digitalen Signalprozessor (208) zum Verarbeiten der digitalen gemischten Sprach/Rauschsignale von den Wandlern in Übereinstimmung mit den Gewichtungsdaten in gefilterte digitale Schalldaten; und durch
- - eine Einrichtung zum Übertragen der gefilterten digitalen Schalldaten zu einer entsprechenden Empfangseinrichtung für die digitalen Schalldaten.
14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet,
daß die Empfangseinrichtung für die digitalen Schalldaten
eine Einrichtung zum Erzeugen analoger gefilterter Schalldaten
aus den digitalen gefilterten Schalldaten aufweist.
15. Vorrichtung nach Anspruch 14, gekennzeichnet durch einen
Lautsprecher zum Erzeugen gefilteter Schallwellen aus den
analogen gefilterten Schalldaten.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22230988A JPH0272398A (ja) | 1988-09-07 | 1988-09-07 | 音声信号用前処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3929481A1 true DE3929481A1 (de) | 1990-03-15 |
DE3929481C2 DE3929481C2 (de) | 1991-07-04 |
Family
ID=16780341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19893929481 Granted DE3929481A1 (de) | 1988-09-07 | 1989-09-05 | Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPH0272398A (de) |
DE (1) | DE3929481A1 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4243831A1 (de) * | 1992-12-23 | 1994-06-30 | Daimler Benz Ag | Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen |
DE19844748A1 (de) * | 1998-09-29 | 1999-10-07 | Siemens Audiologische Technik | Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät |
DE19943875A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | System zur Sprachsteuerung mit einem Mikrofonarray |
WO2002056302A2 (en) * | 2001-01-10 | 2002-07-18 | Ericsson Inc. | Noise reduction apparatus and method |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0435458B1 (de) * | 1989-11-28 | 1995-02-01 | Nec Corporation | Sprach-/Sprachfrequenzband-Daten-Diskriminator |
JPH0462599A (ja) * | 1990-07-02 | 1992-02-27 | N T T Data Tsushin Kk | 雑音除去装置 |
JPH04295894A (ja) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | 神経回路網モデルによる音声認識方法 |
KR100292919B1 (ko) * | 1992-03-30 | 2001-06-15 | 야스카와 히데아키 | 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법 |
US5809461A (en) * | 1992-03-30 | 1998-09-15 | Seiko Epson Corporation | Speech recognition apparatus using neural network and learning method therefor |
EP0712261A1 (de) * | 1994-11-10 | 1996-05-15 | Siemens Audiologische Technik GmbH | Programmierbares Hörgerät |
US6151592A (en) * | 1995-06-07 | 2000-11-21 | Seiko Epson Corporation | Recognition apparatus using neural network, and learning method therefor |
US5960391A (en) * | 1995-12-13 | 1999-09-28 | Denso Corporation | Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system |
CN108766440B (zh) | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0126420A1 (de) * | 1983-05-18 | 1984-11-28 | Speech Systems, Inc. | Spracherkennungssystem |
-
1988
- 1988-09-07 JP JP22230988A patent/JPH0272398A/ja active Pending
-
1989
- 1989-09-05 DE DE19893929481 patent/DE3929481A1/de active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0126420A1 (de) * | 1983-05-18 | 1984-11-28 | Speech Systems, Inc. | Spracherkennungssystem |
Non-Patent Citations (5)
Title |
---|
In: DE-Z.: Elektronik, H. 8, 15.4.1988, S. 102-113 * |
M.I.T. Press, "Parallel Distributed Processing", Bd. 1, 1986, Kap. 8, S. 318-362 * |
Proceedings of ASJ (Acoustic Society of Japan) Spring Meeting, 3-p-13, Mai 1988, S. 253-294 * |
S. Tamura, A. Waibel: "Noise Reduction Using Connectionist Models", in: Proc. of the Int. Conf. on A coustics, Speech and Signal Proc. ICASSP, April 1988 paper identification number 862 A 25.7, S. 53-56, Osaka, JP * |
WEICK, Manfred Wie können Computer lernen? * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4243831A1 (de) * | 1992-12-23 | 1994-06-30 | Daimler Benz Ag | Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen |
US5479517A (en) * | 1992-12-23 | 1995-12-26 | Daimler-Benz Ag | Method of estimating delay in noise-affected voice channels |
DE19844748A1 (de) * | 1998-09-29 | 1999-10-07 | Siemens Audiologische Technik | Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät |
DE19943875A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | System zur Sprachsteuerung mit einem Mikrofonarray |
US6868045B1 (en) | 1999-09-14 | 2005-03-15 | Thomson Licensing S.A. | Voice control system with a microphone array |
WO2002056302A2 (en) * | 2001-01-10 | 2002-07-18 | Ericsson Inc. | Noise reduction apparatus and method |
WO2002056302A3 (en) * | 2001-01-10 | 2003-04-03 | Ericsson Inc | Noise reduction apparatus and method |
US6738481B2 (en) | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JPH0272398A (ja) | 1990-03-12 |
DE3929481C2 (de) | 1991-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3819178C2 (de) | ||
DE2023570C2 (de) | Einseitenband-Modulationssystem | |
EP1016319B1 (de) | Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals | |
DE3929481C2 (de) | ||
DE2524497B2 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
EP0719483A1 (de) | Verfahren zum bestimmen der zu wählenden codierungsart für die codierung von wenigstens zwei signalen | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
EP1525576B1 (de) | Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals | |
DE3938645C1 (de) | ||
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE2125230B2 (de) | Verfahren und Schaltungsanordnung zur modifizierenden Verarbeitung digitaler Informationssignalfolgen | |
DE2949582A1 (de) | Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache | |
EP0554494B1 (de) | Adaptives nichtrekursives Digitalfilter | |
DE112021001228T5 (de) | Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm | |
DE2125391A1 (de) | Endgerätsystem zur Verbindung einer Vielzahl von Benutzerkanälen über einen Übertragungskanal begrenzter Bandbreite | |
DE2609297B2 (de) | Übertragungssystem für Gesprachssignale | |
DE1499327A1 (de) | Rechenanlage | |
WO2014094709A2 (de) | Verfahren zur ermittlung wenigstens zweier einzelsignale aus wenigstens zwei ausgangssignalen | |
DE4209296A1 (de) | Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren | |
DE2435654C2 (de) | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache | |
DE3037276A1 (de) | Tonsynthesizer | |
DE1284127B (de) | Funktionsgenerator fuer spezielle Autokorrelationsfunktionen | |
DE19628503A1 (de) | Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten | |
DE1206476B (de) | Verfahren und Anordnung zur Impulsumkehrung bei einem mit Binaerimpulsen arbeitendenNachrichtenuebertragungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8363 | Opposition against the patent | ||
8330 | Complete disclaimer |