DE3929481C2 - - Google Patents
Info
- Publication number
- DE3929481C2 DE3929481C2 DE19893929481 DE3929481A DE3929481C2 DE 3929481 C2 DE3929481 C2 DE 3929481C2 DE 19893929481 DE19893929481 DE 19893929481 DE 3929481 A DE3929481 A DE 3929481A DE 3929481 C2 DE3929481 C2 DE 3929481C2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- neural network
- signal
- layer
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur
Verringerung des Rauschens in Spracherkennungssystemen bzw. zur
Rauschverringerung in akustischen Signalen der im Oberbegriff
des Patentanspruchs 1 bzw. 6 beschriebenen Art. Ein solches
Verfahren und eine solche Vorrichtung ist aus der EP 01 26 420 A1
bekannt.
Es sind Verfahren zur Verbesserung des Rauschabstandes bei
Sprachsignalen bekannt, bei denen die Frequenzeigenschaften des
Rauschens vorab untersucht werden, um die Rauschkomponente dann
vom Sprachsignal subtrahieren zu können. Diese Verfahren beruhen
jedoch auf der falschen Annahme, daß das Hintergrundrauschen
(das Hintergrundgeräusch) gleichmäßig ist. Es wurde auch bereits
die Verwendung eines sogenannten neuronalen Netzwerkes diskutiert
(Proceedings of ASJ (Acoustic Society of Japan) Spring
Meeting, 3-p-13, Seiten 253 bis 294, Mai 1988).
Das aus der letztgenannten Druckschrift bekannte System zeigt
eine verbesserte Leistungsfähigkeit und hat einen erhöhten
Rauschabstand, es hat sich jedoch herausgestellt, daß dabei die
Verständlichkeit herabgesetzt ist.
Die Bezeichnung "neuronales Netzwerk" schließt hier zwei Arten
solcher Netzwerke ein. Bei der ersten Art besteht das neuronale
Netzwerk aus gleichwertigen parallel verarbeitenden Elementen,
die untereinander entsprechend einer dynamisch selbstorganisierenden
Programmierung auf eine nichtüberwachte, das heißt
selbstlernende Weise verbunden werden, unabhängig davon, ob ein
"Lehrer" vorhanden ist oder nicht. Bei der zweiten Art besteht
das Netzwerk aus gleichwertigen, parallel verarbeitenden Elementen,
die vorab durch Lernen fest miteinander verbunden werden.
Ein solches Netzwerk kann dann später nichts mehr "lernen".
Die menschliche Sprache wird aus dem Mund als eine Folge von
Verdichtungen und Verdünnungen der Luftmoleküle abgegeben. Die
sprachbildenden Organe, über die die Sprachinformationen ausgegeben
werden, sind bei jedem Menschen anders. Durch die physikalischen
Unterschiede zwischen den einzelnen Menschen weichen
die physikalischen Eigenschaften der Sprachsignale, wenn sie als
physikalische Signale betrachtet werden, erheblich voneinander
ab. Darüber hinaus wird von den verschiedensten Schallquellen aus
den verschiedensten Richtungen Rauschen oder ein Hintergrundgeräusch
erzeugt. Die Abweichungen in den physikalischen Eigenschaften
von Sprachsignalen weisen daher keine Gemeinsamkeiten
auf. Bei hohem Geräuschpegel wird darüber hinaus die Stimme im
allgemeinen angehoben, um das Rauschen zu übertönen, wodurch die
Sprache von ihrer gewöhnlichen Form abweicht.
Die eingangs genannte Druckschrift beschreibt ein Spracherkennungssystem
mit einer Anzahl von Mikrofonen und daran angeschlossenen
Signalverarbeitungseinheiten. Die Anzahl der Mikrofone
dient dabei ausschließlich dazu, zur Verbesserung der
Spracherkennung die von Mund, Nase und Kehle des Benutzers abgegebenen
Laute getrennt zu erfassen, wozu die Mikrofone unmittelbar
vor dem Gesicht des Benutzers angeordnet werden. Die
Verarbeitung der Signale aus den Mikrofonen erfolgt in der
üblichen, im wesentlichen seriellen Art.
Diese Anordnung hat nicht nur den Nachteil, daß die Mikrofone
sehr genau plaziert werden müssen, sondern insbesondere auch den
Nachteil, daß Hintergrundgeräusche nur sehr schlecht von der
Sprache abgetrennt werden können, wodurch ab einem bestimmten
Pegel an Hintergrundgeräuschen keine Spracherkennung mehr möglich
ist.
Aus dem Artikel "Wie können Computer lernen" von Manfred Weick
in der DE-Zeitschrift "Elektronik", Heft 8, 15.04.1988, Seiten
102 bis 113 ist es bekannt, zur Spracherkennung neuronale Netze
einzusetzen. Einzelheiten über den Aufbau und die Wirkungsweise
der neuronalen Netze bei einer solchen Anwendung sind jedoch
nicht angegeben. Lediglich allgemein beschrieben ist das sogenannte
"Back-Propagation"-Lernverfahren für neuronale Netzwerke
mit einer Fehlerminimierung zwischen einem Eingangssignal und
einem entsprechenden, gewünschten Ausgangssignal bei Durchlaufen
des Netzwerkes vom Ausgang zum Eingang, das heißt in Rückwärtsrichtung.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und
eine Vorrichtung zu schaffen, mit dem bzw. mit der durch Unterdrückung
der Hintergrundgeräusche eine verbesserte Spracherkennung
möglich ist, das heißt mit dem bzw. mit der Sprachdaten
mit hoher Verständlichkeit und Klarheit erhalten werden können.
Diese Aufgabe wird erfindungsgemäß mit den im kennzeichnenden Teil des
Patentanspruchs 1 bzw. 6 angegebenen Merkmalen gelöst.
Dabei ist vorgesehen, die Gewichtskoeffizienten
des neuronalen Netzwerkes mittels eines reinen Sprachsignals
vorab zu bestimmen, und insbesondere ist vorgesehen, die
Anzahl Neuronen in der Eingangsschicht des Netzwerkes in zwei
(oder mehr) Sätze oder Gruppen aufzuteilen, denen jeweils über
eigene Mikrofone akustische Signale zugeführt werden. Es erhält
somit jeder Satz von Neuronen in der Eingangsschicht über eigene
Mikrofone seine eigenen Signale, die unabhängig von den Signalen
sind, die den anderen Neuronengruppen in der Eingangsschicht
zugeführt werden. Obwohl bereits die nachfolgende (zweite)
Schicht von Neuronen wieder mit allen Neuronen der Eingangsschicht
verknüpft ist, tritt dabei der Effekt auf, daß das
neuronale Netzwerk auch Parallax-Informationen beim "Lernen"
abspeichert und dann verwendet, die durch die räumlich getrennte
Anordnung der Mikrofone für die einzelnen Neuronengruppen der
Eingangsschicht gewonnen werden.
Es ist dabei ohne weiteres möglich, sowohl für den Standort des
Benutzers als auch die Position der Mikrofone einen gewissen
räumlichen Bereich vorzusehen. Der Benutzer darf sich somit
bezüglich der Mikrofone auch bewegen.
Die in den Patentansprüchen 1 und 6 beschriebene Lösung erlaubt
demnach eine sehr gute Spracherkennung auch bei starken Hintergrundgeräuschen.
Die Unteransprüche 2 bis 5 sowie 7 und 8 enthalten
vorteilhafte Ausgestaltungen der erfindungsgemäßen
Vorrichtung bzw. des entsprechenden Verfahrens.
Die Erfindung wird im
folgenden anhand der Zeichnung näher erläutert. Es zeigt
Fig. 1 den Aufbau eines Filters zur Verbesserung des
Rauschabstandes mit einer Darstellung des Lernprozesses,
der damit verbunden ist;
Fig. 2 eine Vorrichtung, bei der der Filter der Fig. 1 verwendet
wird; und
Fig. 3 Beispiele zur Verwendung der Erfindung.
In der Fig. 1 ist die Anordnung eines Filters zur Verbesserung
des Rauschabstandes, der ein neuronales Netzwerk enthält,
dargestellt. Die Fig. 2 zeigt die Anwendung dieses
Filters bei einem filternden und lernenden System.
Das in der Fig. 1 gezeigte neuronale Netzwerk besteht aus
einer Anzahl von "Neuronen", die in einer ersten bis vierten
Schicht 114, 117, 119 und 121 angeordnet sind. Wie es allgemein
bekannt ist, können die einzelnen Neuronen durch Verarbeitungseinheiten
gebildet werden, die eine Bewertung oder
Gewichtung der Signale an ihrem Eingang vornehmen, oder sie
können durch eine herkömmliche Von-Neuman-Maschine emuliert
werden. Zum Aufbau des Netzwerkes können selbstverständlich
auch mehr oder weniger Neuronen und/oder Schichten bzw.
Ebenen wie in der Fig. 1 verwendet werden.
Wie in der Fig. 2 gezeigt, werden Sprachsignale 101 und
Rauschsignale 102, die einer Anzahl von Mikrofonen 201 eingegeben
werden, durch einen multiplexenden A/D-Konverter 202
digitalisiert und dann zu einem Schalter 203 geführt. Im
Lernmodus wird das digitalisierte Signal vom Schalter 203 zu
einem internen Bus 204 geführt und unter der Steuerung eines
Mikroprozesses (µ-CPU) 205 in einem Speicher 206 gespeichert,
um entsprechend der im Mikroprozessor 205 enthaltenen
Prozeduren das neuronale Netz aufzubauen. Das Ergebnis des
Lernens wird in der Form von Gewichtungsfaktoren für die
Verbindungen zwischen den Elementen des neuronalen Netzes
erhalten.
Jeder so bestimmte Gewichtungsfaktor wird über einen Signalleitung
207 zu einem digitalen Signalprozessor (DSP) 208 gegeben,
der ein neuronales Netzwerk zur Rauschfilterung enthält.
Der digitale Signalprozessor 208 stellt somit ein
neuronales Netzwerk zur Rauschfilterung dar, bei dem die Gewichtungen
bereits festgelegt ("gelernt") sind. Wenn das
System als Rauschfilter verwendet wird, wird das Eingangs-Sprachsignal
101 (und das Rauschsignal 102) direkt über die
Mikrofone 201, den A/D-Konverter 202 und den Schalter 203 in
den Signalprozessor 208 eingegeben, um ein Signal 209 mit
verbessertem Rauschabstand am Ausgang des Prozesses 208 zu
erhalten. Wenn die Anordnung nur als Rauschfilter verwendet
wird, brauchen die zum Lernen benötigten Elemente natürlich
nicht immer vorhanden zu sein.
Die Arbeitsweise dieses Rauschfilters und die Lernprozedur
wird anhand der Fig. 1 beschrieben. Beim Lernen können einige
der in der Fig. 1 gezeigten Teile durch virtuelle Teile
des Mikroprozessors 205 und des Speichers 206 der Fig. 2
realisiert werden, während sich bei der Ausführung einer
tatsächlichen Operation nur diejenigen Teile im Signalprozessor
208 befinden, die den in den Fig. 1 gezeigten Filter
bilden. Es ist natürlich auch möglich, daß sich die Mikrofone
201 und der A/D-Konverter 202 an einem anderen Ort
befinden und über eine digitale Leitung mit dem Signalprozessor
208 verbunden sind, der dann allein die Vorrichtung
bildet.
Zur Vereinfachung erfolgt die Beschreibung mit Bezug auf
eine Anordnung, die zwei Eingangssysteme beinhaltet. Die
Anordnung kann jedoch auf die gleiche Weise auch drei oder
mehr Eingangssystem beinhalten.
Bei der Darstellung der Fig. 1 ist angenommen, daß das Ausgangssignal
des q-ten Neuron-Elementes in der p-ten Schicht
gleich Op,q und das Ausgangssignal des r-ten Elementes in
der (p-1)-ten Schicht gleich Op-1,r ist. Zur Vereinfachung
der Beschreibung wird weiter angenommen, daß die Übertragungseigenschaft
zwischen dem Eingang x und dem Ausgang y
für alle Elemente gleich ist und dargestellt wird durch
y = f(x). (1)
Dann gilt folgendes:
Ip,q = Σwp-1,q,r(O)p-1,r (2)
Op,q = f(Ip,q). (3)
Aus der Gleichung (2) ist ersichtlich, daß die Verarbeitung
viele Berechnungen zur Bildung der Summe von Produkten beinhaltet,
die der Signalprozessor ausführt. Das neuronale
Netzwerk beinhaltet vorzugsweise eine große Anzahl von Neuron-Elementen,
die die durch die Gleichung (3) ausgedrückte
Eigenschaften haben und die miteinander in einer hierarchischen
Struktur verbunden sind. Es ist anzumerken, daß, obwohl
das in der Fig. 1 gezeigte neuronale Netzwerk aus vier
Schichten oder Ebenen besteht, die Anzahl der Schichten
nicht notwendigerweise auf vier begrenzt ist.
Das Gemisch aus den Sprachsignalen 101 und dem Rauschen 102,
das über die Mikrofone 103 und 104 den A/D-Konvertern 106
und 107 zugeführt wird, wird dort in digitale Signale umgewandelt,
die zu Schieberegistern 112 bzw. 113 weitergeleitet
werden. Die Schieberegister 112 und 113 sind zusammen mit
einem Schieberegister 124 (später noch genauer erläutert)
dafür vorgesehen, aufeinanderfolgend die Daten synchron zur
Abtastperiode der A/D-Konverter zu verschieben und in jeder
Stufe Daten auszugeben. Die Ausgangssignale der verschiedenen
Stufen der Schieberegister 112 und 113 werden dann jeweils
den Elementen 115 bzw. 116 in der ersten (Eingangs-)
Schicht 114 des neuronalen Netzwerkes zugeführt.
Die Ausgangssignale der Elemente 115 und 116 der ersten
Schicht werden auf der Basis der durch die Gleichungen (2)
und (3) ausgedrückten Beziehungen zu den Elementen 118 der
zweiten Schicht 117 weitergeleitet. Das gleiche gilt für die
Verbindung zwischen den Elementen 118 in der zweiten Schicht
117 und den Elementen 120 in der dritten Schicht 119 sowie
der Verbindung zwischen den Elementen 120 in der dritten
Schicht 119 und den Elementen 122 in der vierten (Ausgangs-)
Schicht 121. Durch die Verarbeitung der Signale in den Elementen
auf der Basis der Beziehungen, die durch die Gleichungen
(2) und (3) dargestellt werden, werden Signale 128
mit einem verbesserten Rauschabstand an den Ausgangsanschlüssen
123 der Ausgangsschicht 121 abgegeben. Wenn das
Ausgangssignal von einem der Ausgangsanschlüsse 123 als
externes Ausgangssignal herausgenommen wird, wird ein Ausgangs-Sprachsignal
209 (Fig. 2) mit verbessertem Rauschabstand
erhalten.
Es folgt eine Beschreibung des Lernvorganges bei dem neuronalen
Netzwerk, das den Rauschfilter bildet.
Das rückwärtsschreitende Verfahren, das bei der Architektur
neuronaler Netzwerke bekannt ist, wird für den Lernvorgang
bei dem vorliegenden System geeignet angewendet. Ein solches
rückwärtsschreitendes Verfahren ist beispielsweise in der
Literaturstelle M.I.T. Press, "Parallel Distributed Processing"
Band 1 (1986), Kap. 8, Seiten 318 bis 362 beschrieben.
Der Lernvorgang wird nun mit Bezug auf die Fig. 1 erläutert.
Zur Vereinfachung werden einige Symbole eingeführt. Der Wert
des Ausgangssignales 128 eines jeden Elementes 122 in der
Ausgangsschicht 121 wird mit O₄,i bezeichnet, der Wert des
Ausgangssignales des j-ten Elementes der dritten Schicht 119
mit O₃,j, der Wert des Ausgangssignales des k-ten Elementes
in der zweiten Schicht 117 mit O₂,k, und ein Soll-Ausgangswert,
der als Lerneingang an das i-te Element in der vierten
Schicht 121 angelegt wird, mit T₄,i. Bezüglich des Fehlersignales,
das für jedes Signal im Verlauf des Rückwärtsschreitens
erhalten wird, wird der Wert des Fehlersignals für das
i-te Element in der vierten Schicht 121 mit δ₄,i, der Wert
des Fehlersignales für das j-te Element in der dritten
Schicht 119 mit δ₃,j, und der Wert des Fehlersignales für
das k-te Element in der zweiten Schicht 117 mit δ₂,k bezeichnet.
Des weiteren wird angenommen, daß die Übertragungseigenschaften
der Elemente in allen Schichten die
gleichen sind und derjenigen entsprechen, die durch die
Gleichung (3) ausgedrückt wird. Es sei außerdem f′ die Ableitung
der Funktion f. Der Verbindungsfaktor zwischen dem
i-ten Element in der Ausgangsschicht 121 und dem j-ten
Element in der dritten Schicht 119 wird mit w₃,i,j bezeichnet,
und der Verbindungsfaktor zwischem dem j-ten Element in
der dritten Schicht 119 und dem k-ten Element in der zweiten
Schicht 117 mit w₂,j,k.
Zum Lernen werden verschiedene Sprachtypen 101 und verschiedene
Rauschtypen 102 getrennt in die Mikrofone 103, 104 und
105 eingegeben. Das in das Mikrofon 105 eingegebene Signal
besteht aus einem reinen Sprachsignal, es wird für den Soll-Ausgangswert
T₄,i verwendet. Die Signale werden in den jeweiligen
Speichern 109, 110 und 111 (Bereiche im Speicher
206 der Fig. 2) gespeichert. Die gespeicherte Sprache und
das gespeicherte Rauschen werden in Addierern 129 und 130
addiert, um Signale zusammenzusetzen, denen ein Rauschen
überlagert ist. Diese Signale werden zu den Schieberegistern
112 und 113 gegeben. Daten über das Ausmaß, in dem das Rauschen
überlagert ist, und über die Kombination von Sprache
und Rauschen werden für verschiedene erwartete Zustände
wiederholt vorbereitet und als Lern-Eingangssignale verwendet.
Bei der tatsächlichen Ausführung wird die Überlagerung
durch Verwendung einer arithmetischen Funktion des Mikroprozessors
205 der Fig. 2 ausgeführt. Der Soll-Ausgangswert
T₄,i ist ein Sprachsignal, das dem Lern-Eingangssignal entspricht,
und es setzt den Grad fest, bis zu dem die Sprache
im Lern-Eingangssignal als Ergebnis der Verbesserung des
Rauschabstandes verbessert werden soll. Das Eingangsmikrofon
105, der A/D-Konverter 108 und der Speicher 111 für den
Soll-Ausgangswert T₄,i können auch für eine Eingabe verwendet
werden, das heißt als Mikrofon 103 (oder 104), D/A-Konverter
106 (oder 107) und Speicher 109 (oder 110), wie es
durch die Verbindungslinie 127 gezeigt wird. Die Sprache für
den Soll-Ausgangswert T₄,i wird dem Schieberegister 124 eingegeben
und die Ausgangssignale 125 aus den verschiedenen
Stufen des Schieberegisters 124 werden den entsprechenden
Elementen 122 in der Ausgangsschicht 121 des neuronalen
Netzwerkes als Soll-Ausgangssignale 125 eingegeben.
Wenn jedem Element in der ersten Schicht 114 ein Lern-Eingangssignal
(Sprache und Rauschen einander überlagert) eingegeben
wird, wird auf der Basis der Beziehungen, die durch
die Gleichungen (2) und (3) ausgedrückt werden, aufeinanderfolgend
von jedem Element von der Eingangsschicht zur Ausgangsschicht
ein Ausgangssignal erhalten. Nachdem das Ausgangssignal
für jedes Element erhalten wurde, werden aufeinanderfolgend
von der Ausgangsschicht 121 bis zu den unteren
Schichten Fehlersignale ermittelt. Die Korrektur der Verbindungsfaktoren
zwischen der p-ten Schicht und (p+1)-ten
Schicht erfolgt unter Verwendung der Fehlersignale für die
(p+1)-te Schicht und den Werten der Ausgangssignale in der
p-ten Schicht. Im folgenden wird zur Vereinfachung nur der
Vorgang zur Korrektur der Verbindungsfaktoren w₃,i,j und
w₂,j,k erläutert. Für die folgenden Schichten wird der entsprechende
Vorgang wiederholt, bis hinunter zur Eingangsschicht.
Zur Korrektur der Verbindungsfaktoren w₃,i,j und w₂,j,k werden
den Wert O₂,k des Ausgangssignales des k-ten Elementes
in der zweiten Schicht 117, der Wert O₃,j des Ausgangssignales
des j-ten Elementes in der dritten Schicht 119, der
Wert δ₃,i,j des Fehlersignales des j-ten Elementes in der
dritten Schicht 119 und der Wert δ₄,i des Fehlersignales des
i-ten Elementes in der vierten (Ausgangs-) Schicht 121 benötigt.
Die Werte für O₂,k und O₃,j können durch eine Vorwärtsrechnung
durch Anlegen von Eingangssignalen an die erste
Schicht 114 erhalten werden, wie oben beschrieben. Die
Werte δ₄,i δ₃,j können aus den folgenden Gleichungen berechnet
werden:
Als nächstes werden w₃,i,j und w₂,j,k korrigiert. Wenn die
Korrekturwerte dabei durch Δw₃,i,j und Δw₂,j,k ausgedrückt
werden, können diese Korrekturwerte wie folgt berechnet
werden:
Δw₃,i,j = α(δ₄,i,) (O₃,j) (6)
Δw₂,k,h = α(δ₃,i,) (O₂,k) (7)
α kann durch experimentelles Überprüfen der Konvergenzgeschwindigkeit
eingestellt werden. Die Gleichungen (6) und
(7) ermöglichen eine Korrektur aller Verbindungsfaktoren
zwischen der Ausgangsschicht und der dritten Schicht und
zwischen der dritten und der zweiten Schicht. Die Verbindungsfaktoren
zwischen der zweiten Schicht und der Eingangsschicht
können auf die gleiche Weise korrigiert werden wie
die Verbindungsfaktoren zwischen der dritten und der zweiten
Schicht.
Auf diese Weise werden alle Verbindungsfaktoren einmal korrigiert.
Mit anderen Eingangsdaten und Sollwerten (solchen,
die sich von den obigen Werten bezüglich der Stimme, dem
Rauschen, dem gegenseitigen Pegel und der gegenseitigen Phasenbeziehung
unterscheiden) wird der obige Vorgang zur Korrektur
der Verbindungsfaktoren wiederholt. Jedesmal, wenn
der Vorgang wiederholt wird, wird ein Bewertungsfaktor E wie
folgt ermittelt:
Die Bewertungsfaktoren werden über alle Lernmuster gemittelt.
Wenn der Mittelwert kleiner als ein vorgegebener
Schwellenwert wird, steht fest, daß der Lernvorgang abgeschlossen
ist.
Wenn der Standort einer sprechenden Person und die Positionen
der Mikrophone auf einen vorgegebenen Bereich beschränkt
sind, werden die Sprachinformationen zum Lernen auch unter
den entsprechenden Bedingungen eingegeben und das interne
Sprachsignal unter Berücksichtigung der Pegel und der Phasenunterschiede
zwischen den Mikrofonen bei dieser Anordnung
erzeugt. Dadurch wird die Effektivität der Verbesserung des
Rauschabstandes bedeutend erhöht. Wenn für den Standort der
sprechenden Person ein gewisser Bereich erlaubt werden soll,
entspricht die Lern-Eingangssprache ebenfalls diesem Bereich.
Die entsprechenden Bedingungen können leicht abgeleitet
werden, beispielsweise auch durch eine interne Synthetisierung
auf der Basis der Grundlagen der Akustik (beispielsweise
reicht es, die Verzögerung des Sprachsignales, die
sich aus dem Abstand zwischen der sprechenden Person und dem
Mikrofon ergibt, und das quadratische Gesetz der Abschwächung
zu berücksichtigen).
Es ist anzumerken, daß es auch möglich ist, das Eingangssignal
einer komplexen Fourier-Transformation oder dergleichen
zu unterwerfen und es dann beispielsweise im Frequenzraum in
das neuronale Netz einzugeben. In einem solchen Fall kann
die Eingangsschicht für die Frequenz und die Phase oder für
den Realteil und den Imaginärteil in zweidimensionaler Form
vorgesehen sein. Der Ausgang kann ein Ausgangssignal im Frequenzbereich
sein, das in den Wellenformbereich rücktransformiert
wird. Bei diesen Verfahren wird eine der bekannten
Raumprojektionstransformationen und eine entsprechende inverse
Transformation benötigt.
Einige Anwendungen des vorstehend beschriebenen Filters sind
in der Fig. 3 dargestellt.
Die Spracherkennung kann beispielsweise dadurch verbessert
werden, daß ein gemäß der vorstehenden Beschreibung aufgebauter
Rauschfilter 301 vor einer Spracherkennungsvorrichtung
302 angeordnet wird, um daraus ein verbessertes Ausgangssignal
303 zu erhalten.
Der Rauschfilter 301 kann auch einer Sprachkodiervorrichtung
304 vorgeschaltet werden, wodurch an dessen Ausgang 305 eine
kodierte Sprache erhalten wird, die leicht zu erkennen ist,
so daß auch bei einem sehr hohen Geräuschpegel eine Sprachverbindung
möglich ist.
Der Rauschfilter 301 kann schließlich auch vor einem gewöhnlichen
Sprachanalysegerät 306 angeordnet werden, wodurch es
möglich ist, Verzerrungen der Sprache bei einem hohen Geräuschpegel
festzustellen, wenn beispielsweise von einem
Menschen die Stimme angehoben wird, um die Hintergrundgeräusche
zu übertönen, wodurch die Sprache von ihrer üblichen
Form abweicht.
Der bei dem erfindungsgemäßen Verfahren bzw. der Vorrichtung
verwendete Sprachdatenfilter
weist somit eine Anzahl von Mikrofonen auf, die im
Abstand voneinander angeordnet sind. Der auf die Mikrofone
einwirkende Schall wird in nachgeschalteten A/D-Konverten
in ein digitales serielles Signal umgewandelt, das ein Eingangssignal
für ein neuronales Netzwerk bildet. Das neuronale
Netzwerk blendet Hintergrundgeräusche aus, wobei teilweise
Daten verwendet werden, die aus den Parallelax-Informationen
erhalten werden, die durch die versetzte Anordnung
der Mikrofone gewonnen werden. Die aus dem neuronalen Netzwerk
erhaltenen Daten werden dann zu einem digitalen Signalprozessor
übertragen, um das Rauschen herauszufiltern.
Claims (10)
1. Vorrichtung zur Verringerung des Rauschens in Spracherkennungssystemen,
mit
- - eine Anzahl von räumlich getrennt angeordneten Wandlern (103, 104, 105; 201) zum Erzeugen einer Anzahl von elektrischen Sprachsignalen, die dem auf die Wandler einwirkenden Schall entsprechen;
gekennzeichnet durch
- - ein neuronales Netzwerk mit einer Anzahl von Schichten
(114, 117, 119, 121), einschließlich einer Eingangsschicht
(114) und einer Ausgangsschicht (121), wobei jede Schicht
aus einer Anzahl von Neuron-Elementen (115, 116; 118; 120;
122) besteht;
- - wobei vorab durch selektives Anlegen eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und durch Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten erhalten werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen,
- - durch eine erste Übermittlungseinrichtung (106, 112), um das elektrische Sprachsignal von einem ersten (103) der Wandler zu jedem Element (115) eines ersten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen; und
- - durch eine zweite Übermittlungseinrichtung (107, 113), um das elektrische Sprachsignal von einem zweiten (104) der Wandler zu jedem Element (116) eines zweiten Satzes von Neuron-Elementen in der Eingangsschicht zu übertragen.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß
jeder der Wandler (103, 104, 105; 201) ein analoges elektrisches
Sprachsignal erzeugt, und daß die erste und die zweite
Übermittlungseinrichtung jeweils eine Einrichtung (106; 107)
zur Umwandlung des analogen elektrischen Sprachsignales in
ein erstes bzw. zweites serielles digitales Sprachsignal
enthält.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß
die erste und die zweite Übermittlungseinrichtung jeweils
ein Schieberegister (112; 113) zum Umwandeln der ersten bzw.
zweiten seriellen digitalen Signale in eine entsprechende
erste bzw. zweite Serie von Ausgangssignalen aufweisen, wobei
die Ausgangssignale der ersten und zweiten Serien jeweils
das Eingangssignal für ein Neuron-Element (115; 116) des
ersten und zweiten Satzes der Eingangsschicht (114) bilden.
4. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine
Einrichtung zur Ausführung einer Fourier-Transformation an
wenigstens einem der elektrischen Sprachsignale, bevor
dieses an das neuronale Netzwerk gegeben wird.
5. Vorrichtung nach Anspruch 1, gekennzeichnet durch eine
Anzahl N zusätzlicher räumlicher getrennter Wandler zur Erzeugung
von elektrischen Sprachsignalen, und durch N zusätzliche
Übermittlungseinrichtungen zum Übertragen der
elektrischen Sprachsignale zu einem N-ten Satz von Neuron-Elementen
in der Eingangsschicht des neuronalen Netzes.
6. Verfahren zur Rauschverringerung in akustischen Signalen,
mit den Verfahrensschritten
- (a) des Aufnehmens von Schallwellen aus einer Anzahl von Positionen; und
- (b) des Erzeugens einer Anzahl von elektrischen Schallsignalen, die den Schallwellen von jeder der Positionen entsprechen;
gekennzeichnet durch die Schritte
- (c) des Übertragens der elektrischen Schallsignale jeweils zu einem ersten und zweiten Satz von Neuron-Elementen (115; 116) in einer Eingangsschicht (114) eines neuronalen Netzwerkes, wobei vorab durch das selektive Anlegens eines reinen Sprachsignales und eines gemischten Sprach/Rauschsignales an das neuronale Netzwerk und das Ausführen eines überwachten Lernvorganges Neuron-Gewichtungsdaten bestimmt werden, die die Übertragungseigenschaften zwischen den Neuron-Elementen des neuronalen Netzes festlegen;
- (d) des Berechnens eines Ausgangssignales in dem neuronalen Netzwerk, das von den elektrischen Schallsignalen am ersten und zweiten Satz von Neutronen abgeleitet wird; und
- (e) des Abgebens der Ausgangssignale von einer Ausgangsschicht (121) der Neuronen des neuronalen Netzwerkes.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
der Verfahrensschritt (b) das Erzeugen einer Anzahl analoger
elektrischer Sprachsignale und das Umwandeln der analogen
elektrischen Sprachsignale in eine entsprechende Anzahl
serieller digitalisierter Sprachsignale umfaßt; und daß der
Verfahrensschritt (c) die Übermittlung jedes der digitalen
Sprachsignale zu dem entsprechenden Satz von Neuron-Elementen
(115; 116) der Eingangsschicht (114) des neuronalen
Netzwerkes beinhaltet.
8. Verfahren nach Anspruch 6, gekennzeichnet durch den
weiteren Verfahrensschritt des Ausführens einer Fourier-Transformation
an wenigstens einem der elektrischen Sprachsignale,
bevor dieses an das neuronale Netzwerk gegeben
wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22230988A JPH0272398A (ja) | 1988-09-07 | 1988-09-07 | 音声信号用前処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3929481A1 DE3929481A1 (de) | 1990-03-15 |
DE3929481C2 true DE3929481C2 (de) | 1991-07-04 |
Family
ID=16780341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19893929481 Granted DE3929481A1 (de) | 1988-09-07 | 1989-09-05 | Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPH0272398A (de) |
DE (1) | DE3929481A1 (de) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2643593B2 (ja) * | 1989-11-28 | 1997-08-20 | 日本電気株式会社 | 音声・モデム信号識別回路 |
JPH0462599A (ja) * | 1990-07-02 | 1992-02-27 | N T T Data Tsushin Kk | 雑音除去装置 |
JPH04295894A (ja) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | 神経回路網モデルによる音声認識方法 |
US5787393A (en) * | 1992-03-30 | 1998-07-28 | Seiko Epson Corporation | Speech recognition apparatus using neural network, and learning method therefor |
JP3521429B2 (ja) * | 1992-03-30 | 2004-04-19 | セイコーエプソン株式会社 | ニューラルネットワークを用いた音声認識装置およびその学習方法 |
DE4243831A1 (de) * | 1992-12-23 | 1994-06-30 | Daimler Benz Ag | Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen |
EP0712261A1 (de) * | 1994-11-10 | 1996-05-15 | Siemens Audiologische Technik GmbH | Programmierbares Hörgerät |
US6151592A (en) * | 1995-06-07 | 2000-11-21 | Seiko Epson Corporation | Recognition apparatus using neural network, and learning method therefor |
US5960391A (en) * | 1995-12-13 | 1999-09-28 | Denso Corporation | Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system |
DE19844748A1 (de) * | 1998-09-29 | 1999-10-07 | Siemens Audiologische Technik | Verfahren zum Bereitstellen einer Richtmikrofoncharakteristik und Hörgerät |
DE19943875A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | System zur Sprachsteuerung mit einem Mikrofonarray |
US6738481B2 (en) | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
CN108766440B (zh) | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE45831T1 (de) * | 1983-05-18 | 1989-09-15 | Speech Systems Inc | Spracherkennungssystem. |
-
1988
- 1988-09-07 JP JP22230988A patent/JPH0272398A/ja active Pending
-
1989
- 1989-09-05 DE DE19893929481 patent/DE3929481A1/de active Granted
Also Published As
Publication number | Publication date |
---|---|
DE3929481A1 (de) | 1990-03-15 |
JPH0272398A (ja) | 1990-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3929481C2 (de) | ||
DE69827911T2 (de) | Verfahren und einrichtung zur mehrkanaligen kompensation eines akustischen echos | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3938645C1 (de) | ||
EP1016319B1 (de) | Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE60310687T2 (de) | Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE69629934T2 (de) | Umgekehrte transform-schmalband/breitband tonsynthese | |
EP1525576A1 (de) | Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals | |
DE3019823C2 (de) | ||
DE69820497T2 (de) | Neuronales netzwerk und seine anwendung für die spracherkennung | |
EP1981582B1 (de) | Vorrichtung und computerprogramm zum erzeugen eines ansteuersignals für ein cochlea-implantat basierend auf einem audiosignal | |
DE112021001228T5 (de) | Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm | |
DE102005039621A1 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
DE19611732C1 (de) | Verfahren zur Ermittlung von zur Entfernung geeigneten Gewichten eines neuronalen Netzes mit Hilfe eines Rechners | |
EP0554494A1 (de) | Adaptives nichtrekursives Digitalfilter | |
WO2014094709A2 (de) | Verfahren zur ermittlung wenigstens zweier einzelsignale aus wenigstens zwei ausgangssignalen | |
DE4209296A1 (de) | Wort- und wortkettenerkennungssystem auf der basis eines neuronalen netzes mit automatischer zellbildung und -komprimierung sowie nachlernverfahren | |
DE2435654C2 (de) | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache | |
DE112017007051B4 (de) | Signalverarbeitungsvorrichtung | |
DE3037276C2 (de) | Tonsynthesizer | |
DE19628503A1 (de) | Audiosignal-Verarbeitungsschaltung zur Berechnung eines Maskenpegels von quantisierten Audiosignalwerten | |
DE10150519B4 (de) | Verfahren und Anordnung zur Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8363 | Opposition against the patent | ||
8330 | Complete disclaimer |