DE19859174C1 - Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale - Google Patents
Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter SchallsignaleInfo
- Publication number
- DE19859174C1 DE19859174C1 DE19859174A DE19859174A DE19859174C1 DE 19859174 C1 DE19859174 C1 DE 19859174C1 DE 19859174 A DE19859174 A DE 19859174A DE 19859174 A DE19859174 A DE 19859174A DE 19859174 C1 DE19859174 C1 DE 19859174C1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- noise
- noise reduction
- profiles
- time offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000009467 reduction Effects 0.000 title claims description 49
- 238000012545 processing Methods 0.000 title claims description 23
- 230000000737 periodic effect Effects 0.000 claims abstract description 12
- 230000002596 correlated effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 45
- 230000005236 sound signal Effects 0.000 claims description 41
- 238000005070 sampling Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 abstract description 2
- 230000033001 locomotion Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000000739 chaotic effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000012731 temporal analysis Methods 0.000 description 3
- 238000000700 time series analysis Methods 0.000 description 3
- 101000634046 Homo sapiens Histone-lysine N-methyltransferase NSD3 Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 102000057522 human NSD3 Human genes 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 244000201389 Panicum palmifolium Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000035987 intoxication Effects 0.000 description 1
- 231100000566 intoxication Toxicity 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
Zur Signalverarbeitung eines Schallsignals y, bei dem innerhalb vorbestimmter Signalabschnitte des Schallsignals periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt werden, erfolgt eine Zuordnung korrelierter Signalanteile zu einem Leistungsanteil und unkorrelierter Signalanteile zu einem Rauschanteil des Schallsignals. Die Korrelationen zwischen den Signalprofilen werden mit Verfahren der nicht-linearen Rauschreduzierung in deterministischen Systemen ermittelt.
Description
Die Erfindung betrifft Verfahren zur Verarbeitung rauschbehaf
teter Schallsignale, insbesondere zur nichtlinearen Rauschredu
zierung in Sprachsignalen, zur nichtlinearen Trennung von Lei
stungs- und Rauschsignalen und zur Anwendung nichtlinearer
Zeitreihenanalysen, die auf dem Konzept des niedrigdimensiona
len deterministischen Chaos beruhen. Die Erfindung betrifft
auch eine Vorrichtung zur Implementierung der Verfahren und de
ren Verwendung.
Die Rauschreduzierung bei der Aufnahme, Speicherung, Übertra
gung oder Wiedergabe menschlicher Sprache besitzt eine hohe
technische Relevanz. Rauschen kann als reine Meßungenauigkeit
z. B. in Form des Digitalfehlers bei Ausgabe von Schallamplitu
den, als Rauschen im Übertragungskanal oder als dynamisches
Rauschen durch die Kopplung des betrachteten Systems mit der
Außenwelt auftreten. Beispiele für Rauschreduzierungen der
menschlichen Sprache sind allgemein aus der Telekommunikation,
der automatischen Spracherkennung oder dem Einsatz elektroni
scher Hörhilfen bekannt. Das Problem der Rauschreduzierung
tritt nicht nur bei menschlicher Sprache, sondern auch bei an
deren Arten von Schallsignalen, und nicht nur bei stochasti
schem Rauschen, sondern auch bei allen Formen der Überlagerung
eines relevanten Schallsignals durch Fremdgeräusche auf. Es be
steht ein Interesse an einem Signalverarbeitungsverfahren, mit
dem stark aperiodische und nicht-stationäre Schallsignale in
Bezug auf Leistungs- und Rauschanteile analysiert, manipuliert
oder getrennt werden können.
Ein typischer Ansatz zur Rauschreduzierung, d. h. zur Zerlegung
eines Signals in bestimmte Leistungs- und Rauschanteile, beru
hen auf einer Signalfilterung im Frequenzbereich. Im einfach
sten Fall erfolgt die Filterung mit Bandpaßfiltern, woraus je
doch das folgende Problem entsteht. In der Regel ist stochasti
sches Rauschen breitbandig (häufig sogenanntes "weißes Rau
schen"). Wenn das Leistungssignal jedoch selbst stark
aperiodisch und somit breitbandig ist, wird mit dem Frequenz
filter auch ein Leistungssignalanteil zerstört, woraus sich un
zulängliche Ergebnisse ergeben. Soll z. B. bei einer Sprachüber
tragung die menschliche Sprache durch einen Tiefpaßfilter von
hochfrequentem Rauschen befreit werden, so wird das Sprachsi
gnal verzerrt.
Ein weiterer allgemein bekannter Ansatz zur Rauschreduzierung
besteht in der Rauschkompensation bei Schallaufnahmen. Dabei
wird beispielsweise mit einem ersten Mikrofon die von einem
Lärmpegel in einem Raum überlagerte menschliche Sprache und mit
einem zweiten Mikrofon ein Schallsignal aufgenommen, das im we
sentlichen den Lärmpegel repräsentiert. Vom Meßsignal des zwei
ten Mikrofons wird ein Kompensationssignal abgeleitet, das bei
Überlagerung mit dem Meßsignal des ersten Mikrofons das Rau
schen aus dem umgebenden Raum kompensiert. Diese Technik ist
aufgrund des relativ hohen Geräteaufwandes (Einsatz spezieller
Mikrofone mit Richtcharakteristik) und wegen des eingeschränk
ten Einsatzbereiches z. B. bei der Sprachaufnahme nachteilig.
Es sind ferner Verfahren zur nichtlinearen Zeitreihenanalyse
auf der Grundlage des Konzepts des niedrigdimensionalen deter
ministischen Chaos bekannt. Da in fast allen Bereichen unserer
täglichen Umwelt, aber auch in vielen Bereichen der Wissen
schaft und Technik komplexes dynamisches Verhalten eine wichti
ge Rolle spielt, z. B. wenn Vorgänge in der Medizin, Ökonomie,
Signaltechnik oder Meteorologie aperiodische, schwer vorhersag
bare und oft auch schwer klassifizierbare Signale liefern,
stellt die Zeitreihenanalyse einen grundsätzlichen Ansatz dar,
aus beobachteten Daten möglichst viel über die Eigenschaften
oder den Zustand eines Systems zu lernen. Bekannte Analysever
fahren zum Verständnis aperiodischer Signale werden z. B. von H.
Kantz et al. in "Nonlinear Time Series Analysis", Cambridge
University Press, Cambridge, 1997, oder von H. D. I. Abarbanel
in "Analysis of Observed Chaotic Data", Springer, New York,
1996 beschrieben. Diese Verfahren basieren auf dem Konzept des
deterministischen Chaos. Deterministisches Chaos bedeutet, daß
zwar ein Systemzustand zu einem bestimmten Zeitpunkt in eindeu
tiger Weise den Systemzustand zu jedem beliebigen späteren
Zeitpunkt festlegt, das System aber dennoch über längere Zeit
unvorhersagbar ist. Dies ergibt sich daraus, daß der aktuelle
Systemzustand mit einem unvermeidlichen Fehler erfaßt wird,
dessen Wirkung je nach Bewegungsgleichung des Systems exponen
tiell wächst, so daß nach relativ kurzer Zeit ein simulierter
Modellzustand mit dem Realzustand des Systems keine Ähnlichkeit
mehr besitzt.
Für Zeitreihen deterministischer chaotischer Systems wurden
Verfahren zur Rauschunterdrückung entwickelt, die keine Tren
nung im Frequenzbereich vornehmen, sondern explizit auf die de
terministische Struktur des Signals zurückgreifen. Diese Ver
fahren werden beispielsweise von P. Grassberger et al. in
"CHAOS", Bd. 3, 1993, S. 127, von H. Kantz et al. (s. o.) und
von E. J. Kostelich et al. in "Phys. Rev. E", Bd. 48, 1993, S.
1752, beschrieben. Das Prinzip der Rauschunterdrückung für de
terministische Systeme wird im folgenden unter Bezug auf Fig.
10a beschrieben.
Fig. 10 zeigt schematisch die Abhängigkeit aufeinanderfolgender
Zeitreihenwerte für rauschfreie bzw. verrauschte Systeme (am
Beispiel eines eindimensionalen Zusammenhangs). Die rausch
freien Daten eines deterministischen Systems liefern das in
Fig. 10a gezeigte Bild. Es besteht eine exakte (hier: eindimen
sionale) deterministische Beziehung zwischen einem Wert und dem
Folgewert. Die Zeitversatzvektoren, zu denen Einzelheiten wei
ter unten erläutert werden, liegen in einer niedrigdimensiona
len Mannigfaltigkeit im Einbettungsraum. Bei Einführung von
Rauschen wird die deterministische Beziehung durch eine appro
ximative Beziehung ersetzt. Die Daten liegen nicht mehr auf der
Untermannigfaltigkeit, sondern in ihrer Nähe (Fig. 10b). Die
Unterscheidung von Leistung und Rauschen erfolgt über die Di
mensionalität. Alles, was aus der Untermannigfaltigkeit heraus
führt, ist auf den Einfluß des Rauschens zurückzuführen.
Dementsprechend erfolgt die Rauschunterdrückung für determini
stisch chaotische Signale in drei Schritten. Zuerst wird die
Dimension m des Einbettungsraumes und die Dimension der Mannig
faltigkeit, in der die unverrauschten Daten lägen, abgeschätzt.
Zur eigentlichen Korrektur wird dann für jeden einzelnen Punkt
die Mannigfaltigkeit in seiner Nähe identifiziert und schließ
lich zur Rauschreduzierung der betrachtete Punkt auf die Man
nigfaltigkeit projiziert (Fig. 10c).
Der Nachteil der illustrierten Rauschunterdrückung besteht in
deren Beschränkung auf deterministische Systeme. In einem
nicht-deterministischen System, in dem also kein eindeutiger
Zusammenhang zwischen einem Zustand und einem Folgezustand be
steht, ist das Konzept der Identifizierung einer Bewegungsglei
chung und der Betrachtung einer glatten Mannigfaltigkeit, wie
es in Fig. 10 illustriert ist, nicht anwendbar. So bilden bei
spielsweise die Signalamplituden von Sprachsignalen Zeitreihen,
die unvorhersagbar sind und den Zeitreihen nicht-determini
stischer Systeme entsprechen.
Die Anwendbarkeit der herkömmlichen nichtlinearen Rauschredu
zierung ist für Sprachsignale insbesondere aus den folgenden
Gründen bisher ausgeschlossen. Die menschliche Sprache (aber
auch andere Schallsignale natürlichen oder synthetischen Ur
sprungs) ist in der Regel hochgradig nichtstationär. Die Spra
che ist aus einer Verkettung von Phonemen zusammengesetzt. Die
Phoneme wechseln sich ständig ab, so daß sich die Sprachdynamik
laufend ändert. Beispielsweise enthalten Zisch-Laute vorrangig
hohe Frequenzen und Vokale (z. B. "o") vorrangig niedrige Fre
quenzen. Damit wären zur Beschreibung der Sprache Bewegungs
gleichungen erforderlich, die sich ständig im Zeitverlauf än
dern. Die Existenz einer einheitlichen Bewegungsgleichung ist
jedoch Voraussetzung für das unter Bezug auf Fig. 10 beschrie
bene Konzept der Rauschunterdrückung.
Es ist die Aufgabe der Erfindung, ein verbessertes Signalverar
beitungsverfahren für Schallsignale, insbesondere für ver
rauschte Sprachsignale, anzugeben, mit dem eine effektive und
schnelle Trennung von Leistungs- und Rauschanteilen des be
trachteten Schallsignals möglichst verzerrungsfrei möglich ist.
Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Imple
mentierung eines derartigen Verfahrens anzugeben.
Diese Aufgaben werden durch ein Verfahren bzw. durch eine Vor
richtung mit den Merkmalen gemäß den Patentansprüchen 1 bzw. 9
gelöst. Vorteilhafte Ausführungsformen und Verwendungen der Er
findung ergeben sich aus den abhängigen Ansprüchen.
Ein erster wichtiger Gesichtspunkt der Erfindung besteht insbe
sondere darin, nichtstationäre Schallsignale, bestehend aus
Leistungs- und Rauschanteilen, mit einer derart hohen Ab
tastrate zu erfassen, daß vorbestimmte Signalprofile innerhalb
des betrachteten Schallsignals als periodische oder annähernd
periodische Wiederholungen dargestellt werden können. Auf die
Begriffe der periodischen bzw. annähernd periodischen Wiederho
lungen wird gesondert weiter unten eingegangen. Im folgenden
wird einheitlich der Begriff der annähernd periodischen Signal
profile verwendet. Die damit erfaßten Zeitreihen von Schallsi
gnalen liefern Wellenformen, die sich zumindest über bestimmte
Signalabschnitte des Schallsignals wiederholen und eine zeit
lich begrenzte Anwendung des oben genannten, an sich bekannten
Konzepts der nichtlinearen Rauschreduzierung erlauben.
Gemäß einem weiteren wichtigen Gesichtspunkt der Erfindung wer
den innerhalb eines betrachteten Schallsignals annähernd peri
odische Signalprofile erfaßt und Korrelationen zwischen den Si
gnalprofilen ermittelt, um korrelierte Signalanteile einem Lei
stungsanteil und unkorrelierte Signalanteile einem Rauschanteil
des Schallsignals zuzuordnen.
Ein weiterer wichtiger Gesichtspunkt der Erfindung besteht in
der Erfassung von Signalwerten innerhalb eines Signalabschnitts
des betrachteten Schallsignals entsprechend einer Vielzahl vor
bestimmter Einbettungszeitfenster, jeweils mit einer vorbe
stimmten Einbettungsdimension, wobei ferner zur nichtlinearen
Rauschreduzierung vorbestimmte zeitliche Umgebungen der Einbet
tungszeitfenster und eine Anzahl typischer, korrelierter Zu
stände ermittelt werden.
Gegenstand der Erfindung ist auch die Bereitstellung einer Vor
richtung zur Signalverarbeitung für Schallsignale, die insbe
sondere eine Abtastschaltung zur Signalwerterfassung, eine Re
chenschaltung zur Signalwertverarbeitung und eine Ausgabeein
heit zur Ausgabe entrauschter Zeitreihen umfaßt.
Schließlich ist hervorzuheben, daß erstmalig die Anwendung
nichtlinearer Rauschreduzierungsverfahren für deterministische
Systeme zur Verarbeitung nichtstationärer und nicht-determini
stischer Schallsignale beschrieben wird. Dies ist überraschend,
da die Voraussetzung der an sich bekannten Rauschreduzierungs
verfahren insbesondere die Stationarität und den Determinismus
der zu bearbeitenden Signale umfassen. Gerade diese Vorausset
zungen sind bei nichtstationären Schallsignalen bei Betrachtung
des globalen Signalverlaufs verletzt. Dennoch liefert die auf
bestimmte Signalprofile beschränkte Anwendung der nichtlineare
Rauschreduzierung hervorragende Ergebnisse.
Die Erfindung besitzt die folgenden Vorteile. Es wird erstmalig
ein Rauschreduzierungsverfahren für Schallsignale geschaffen,
das im wesentlichen verzerrungsfrei arbeitet und mit einem ge
ringen gerätetechnischen Aufwand implementierbar ist. Die Er
findung läßt sich in Echtzeit oder nahezu in Echtzeit implemen
tieren. Bestimmte Teile der erfindungsgemäßen Signalverarbei
tung sind mit herkömmlichen Rauschreduzierungsverfahren kompa
tibel, so daß an sich bekannte zusätzliche Korrekturverfahren
oder schnelle Datenverarbeitungsalgorithmen problemlos auf die
Erfindung übertragbar sind. Die Erfindung erlaubt die effektive
Trennung von Leistungs- und Rauschanteilen unabhängig vom Fre
quenzspektrum des Rauschens. So ist insbesondere auch sogenann
tes farbiges Rauschen oder isospektrales Rauschen trennbar. Die
Erfindung ist nicht nur bei stationärem Rauschen, sondern auch
beim nichtstationärem Rauschen anwendbar, wenn die Zeitskala,
auf der der Rauschprozeß seine Eigenschaften verändert, länger
als typischerweise 100 ms ist (dies ist ein Beispielwert, der
sich insbesondere auf die Bearbeitung von Sprachsignalen be
zieht und bei anderen Anwendungen auch kürzer ausfallen kann).
Die Erfindung ist nicht auf die menschliche Sprache beschränkt,
sondern auch bei anderen Schallquellen natürlichen oder synthe
tischen Ursprungs anwendbar. Bei der Bearbeitung von Sprachsi
gnalen ist es möglich, ein menschliches Sprachsignale von Hin
tergrundgeräuschen zu trennen. Es ist allerdings nicht möglich,
einzelne Sprachsignale voneinander zu trennen. Dies würde vor
aussetzen, daß z. B. eine Stimme als Leistungsanteil und eine
andere Stimme als Rauschanteil betrachtet wird. Die den
Rauschanteil repräsentierende Stimme würde jedoch ein nicht be
handelbares nichtstationäres Rauschen gleicher Zeitskala dar
stellen.
Weitere Einzelheiten und Vorteile der Erfindung werden im fol
genden unter Bezug auf die beigefügten Abbildungen beschrieben.
Es zeigen:
Fig. 1 Kurvendarstellungen zur Illustration eines Sprachsi
gnals;
Fig. 2 eine Kurvendarstellung eines Zeitausschnitts des in
Fig. 1 illustrierten Schallsignals;
Fig. 3 ein Flußdiagramm zur Illustration des erfindungsgemä
ßen Verfahrens;
Fig. 4 Kurvendarstellungen zur Illustration einer erfin
dungsgemäßen Rauschreduzierung an einem Pfeifsignal;
Fig. 5 Kurvendarstellungen zur Illustration des erfindungs
gemäßen Verfahrens an Sprachschallsignalen;
Fig. 6 eine Darstellung der Rauschreduzierung in Abhängig
keit vom Rauschpegel;
Fig. 7 eine Kurvendarstellung zur Illustration von Korrela
tionen zwischen Signalprofilen in einem Sprachsignal;
Fig. 8 eine Kurvendarstellung zur Illustration eines
rauschbereinigten Sprachsignals;
Fig. 9 eine schematische Blockdarstellung einer erfindungs
gemäßen Vorrichtung; und
Fig. 10 Kurvendarstellungen zur Illustration der nichtlinea
ren Rauschreduzierung in deterministischen Systemen
(Stand der Technik).
Die Erfindung wird im folgenden am Beispiel der Rauschreduzie
rung an Sprachsignalen durch Ausnutzung der intra-phonem-
Redundanz erläutert. Der Leistungsanteil des Schallsignals wird
durch einen Sprachanteil x gebildet, der durch einen Rauschan
teil r überlagert ist. Das Schallsignal ist in Signalabschnitte
unterteilt, die beim Sprachbeispiel durch gesprochene Silben
oder Phoneme gebildet werden. Die Erfindung ist jedoch nicht
auf die Sprachverarbeitung beschränkt. Bei anderen Schallsigna
len wird die Zuordnung der Signalabschnitte anwendungsabhängig
anders gewählt. Der erfindungsgemäßen Signalverarbeitung ist
jedes Schallsignal zugänglich, das an sich zwar nichtstationär
ist, aber innerhalb vorbestimmter Signalabschnitte annähernd
periodisch sich wiederholende Signalprofile aufweist.
Im folgenden werden zunächst Einzelheiten der nichtlinearen
Rauschreduzierung erläutert, wie sie an sich aus den oben zi
tierten Publikationen von E. J. Kostelich et al. und P. Grass
berger et al. bekannt sind. Diese Erläuterungen dienen dem Ver
ständnis der herkömmlichen Technik. In Bezug auf Einzelheiten
der nichtlinearen Rauschreduzierung werden hier die genannten
Publikationen von E. J. Kostelich et al. und P. Grassberger et
al. vollständig in die vorliegende Beschreibung einbezogen. Die
Erläuterung bezieht sich auf deterministische Systeme. Die er
findungsgemäße Übertragung der herkömmlichen Technik auf nicht
deterministische Systeme wird unten beschrieben.
Die Zustände x eines dynamischen Systems werden durch eine Be
wegungsgleichung gemäß xn+1 = F(xn) in einem Zustandsraum be
schrieben. Die Bewegungsgleichung ist in der Regel eine kompli
zierte Differentialgleichung. Falls die Funktion F nicht be
kannt ist, kann sie jedoch aus langen Zeitreihen {xk},
k = 1, . . ., N, durch Betrachtung sämtlicher Punkte in einer Umge
bung (oder: Nachbarschaft) Un eines Punktes xn und Minimierung
der Funktion (1) linear angenähert werden.
Die Größe sn 2 stellt einen Vorhersagefehler in Bezug auf die
Faktoren An und bn dar. Der implizite Ausdruck Anxk + bn-xk+1 =
0 illustriert, daß die Werte, die der oben genannten Bewegungs
gleichung entsprechen, auf eine Hyperebene innerhalb des be
trachteten Zustandsraumes beschränkt sind.
Wenn der Zustand xk durch ein statistisches Rauschen rk zu ei
nem realen Zustand yk = xk + rk überlagert ist, so wird die Um
gebung Un nicht mehr in der durch An und bn gebildeten Hyperebe
ne, sondern in einem Gebiet um die Hyperebene verstreut liegen.
Die nichtlineare Rauschreduzierung bedeutet nun, die verrausch
ten Zustände yn auf die Hyperebene zu projizieren. Die Projek
tion der Zustände auf die Hyperebene erfolgt nach an sich be
kannten Verfahren der linearen Algebra. Anschließend erfolgt
die Konstruktion von Vektoren aus skalaren Zeitreihen nach dem
Konzept der Zeitversatzvektoren, wie es im einzelnen von
F. Takens unter dem Titel "Detecting Strange Attractors in
Turbulence" in "Lecture Notes in Math", Bd. 898, Springer, New
York, 1981, oder von T. Sauer et al. in "J. Stat. Phys.", Bd.
65, 1991, S. 579, und illustrativ im folgenden beschrieben
wird. Auch diese Publikationen werden hiermit vollständig in
die vorliegende Beschreibung einbezogen.
Ausgehend von einer skalaren Zeitreihe sk werden Zeitversatz
vektoren in einem m-dimensionalen Raum gemäß
n = (sn, sn-τ, . . .sn-c(m-1)τ) gebildet. Der Parameter m ist die Ein
bettungsdimension der Zeitversatzvektoren. Die Einbettungsdi
mension wird anwendungsabhängig gewählt und ist größer als der
doppelte Wert der fraktalen Dimension des Attraktors des be
trachteten dynamischen Systems. Der Parameter τ ist ein Abta
stabstand (oder: "time lag"), der den zeitlichen Abstand der
aufeinanderfolgenden Elemente der Zeitreihe darstellt. Der
Zeitversatzverktor ist somit ein m-dimensionaler Vektor, dessen
Komponenten einen bestimmten Zeitreihenwert und die (m-1) vor
hergehenden Zeitreihenwerte umfassen. Er beschreibt die zeitli
che Entwicklung des Systems während eines Zeitbereichs oder
Einbettungsfensters der Dauer m.τ. Mit jedem neuen Abtastwert
verschiebt sich das Einbettungsfenster innerhalb der gesamten
zeitlichen Entwicklung jeweils um einen Abtastabstand. Der Ab
tastabstand τ ist wiederum eine anwendungsabhängig gewählte
Größe. Falls sich das System wenig ändert, kann der Abtastab
stand größer gewählt werden, um die Verarbeitung redundanter
Daten zu vermeiden. Falls sich das System schnell ändert, muß
der Abtastabstand geringer gewählt werden, da andernfalls die
Korrelationen, die zwischen benachbarten Werten auftreten, Feh
ler in die weitere Verarbeitung einführen würden. Die Wahl des
Abtastabstandes τ ist somit ein Kompromiß zwischen der Redun
danz und der Korrelation zwischen aufeinanderfolgenden Zustän
den.
Die oben genannte Projektion der Zustände auf die Hyperebene
erfolgt unter Verwendung der Zeitversatzvektoren entsprechend
einer Berechnung, die im einzelnen von H. Kantz et al. in
"Phys. Rev. E", Bd. 48, 1993, S. 1529, beschrieben ist. Auch
diese Publikation wird vollständig in die vorliegende Beschrei
bung einbezogen. Für jeden Zeitversatzvektor n werden alle
Nachbarn im Zeitverzögerungsraum betrachtet, d. h. die Umgebung
Un wird gebildet. Anschließend wird die Kovarianzmatrix gemäß
Gleichung (2) berechnet, wobei das Zeichen ^ bedeutet, daß der
Mittelwert auf der Umgebung Un subtrahiert worden ist.
Zur Kovarianzmatrix Cij werden die Singulär- oder Eigenwerte
ermittelt. Die Vektoren, die den größten Singulärwerten ent
sprechen, stellen die Richtungen dar, die die Hyperebene, die
durch die oben genannten An und bn definiert ist, aufspannen.
Um nun das Rauschen aus den Werten n, zu reduzieren, werden die
zugehörigen Zeitversatzvektoren auf die dominanten Richtungen,
die die Hyperebene aufspannen, projiziert. Für jedes Element
der skalaren Zeitreihe ergibt dies m verschiedene Korrekturen,
die in geeigneter Weise kombiniert werden. Mit den rauschredu
zierten Werten kann der beschriebene Vorgang zur erneuten Pro
jektion wiederholt werden.
Die Berechnung der Kovarianzmatrix und Ermittlung von dominan
ten Vektoren, die einer vorbestimmten Anzahl von größten Singu
lärwerten entsprechen, repräsentiert die Suche nach Korrelatio
nen zwischen aufeinanderfolgenden Systemzuständen. Diese Suche
wird bei den deterministischen Systemen auf die bekannte oder
angenommene Bewegungsgleichung des Systems bezogen. Wie die er
findungsgemäße Suche nach Korrelationen zwischen Systemzustän
den bei nicht-deterministischen Systemen erfolgt, wird unten
beschrieben.
Um die Korrelation zwischen den Zuständen zu ermitteln, wird
beim deterministischen System die angenommene zeitliche Unver
ändlichkeit der Bewegungsgleichung als Zusatzinformation heran
gezogen. Im Unterschied dazu erfolgt die Ermittlung der Korre
lation zwischen benachbarten Zuständen bei der erfindungsgemä
ßen Signalverarbeitung im nicht-deterministischen System auf
der Grundlage der folgenden Zusatzinformation. Innerhalb vorbe
stimmter Signalabschnitte des zu bearbeitenden Signals treten
annähernd periodisch sich wiederholende Signalprofile auf. Un
ter der Annahme, daß diese Signalprofile auf der nahezu unver
änderten Wiederholung der unverrauschten Leistungsanteile ba
sieren, können die Korrelationen zwischen engbenachbarten Zu
ständen ermittelt werden. Diese Korrelationsermittlung erfolgt
jedoch auf einer beschränkten Zeitskala innerhalb des Signalab
schnittes. Dies wird im folgenden illustriert.
Die menschliche Sprache ist eine Aneinanderreihung von Phonemen
oder Silben, die in Bezug auf die auftretenden Amplituden und
Frequenzen charakteristische Muster besitzen. Diese Muster kön
nen beispielsweise durch Beobachtung elektrischer Signale eines
Schallwandlers (z. B. Mikrofon) erfaßt werden. Auf mittleren
Zeitskalen (z. B. im Rahmen eines Wortes) ist die Sprache nicht
stationär und auf langen Zeitskalen (z. B. im Rahmen eines Sat
zes) hochkomplex, wobei viele aktive Freiheitsgrade und ggf.
langreichweitige Korrelationen auftreten. Auf kurzen Zeitskalen
(Zeitbereiche, die im wesentlichen der Länge eines Phonems oder
einer Silbe entsprechen), treten im Signalverlauf repetetive
Muster oder sich wiederholende Signalprofile auf, die im fol
genden erläutert werden. Einzelheiten der konkreten Berechnun
gen werden analog zur herkömmlichen Rauschreduzierung implemen
tiert und können den o. a. Publikationen entnommen werden.
Fig. 1 zeigt als Beispiel den italienischen Gruß "Buon giorno"
als Wellenzug. Dabei handelt es sich um die mit einer Ab
tastfrequenz von 10 kHz aufgezeichnete Signalamplitude mit den
(willkürlich normierten) Zeitreihenwerten yn in Abhängigkeit
von der dimensionslosen Zeitzählskala. Diese Signalamplitude
wurde von einer extrem rauscharmen, digitalen Sprachaufzeich
nung abgeleitet. Der Gesamtzeitverlauf von n = 0 bis n = 20000 ent
spricht einem Zeitbereich von rd. 2 Sekunden.
Bei Darstellung eines Zeitausschnitts des in Fig. 1 gezeigten
Amplitudenverlaufs mit extrem gestreckter Zeitskala ergibt sich
das Bild in Fig. 2. Es zeigt sich, daß der Amplitudenverlauf
innerhalb bestimmter Signalabschnitte (z. B. Phoneme) die illu
strierten periodischen Wiederholungen aufweist. Ein Signalpro
fil wiederholt sich bei dem dargestellten Beispiel in Zeitin
tervallen einer Breite von rund 7 ms. Ein besonderer Vorteil
der Erfindung besteht darin, daß die Wirksamkeit der erfin
dungsgemäßen Rauschreduzierung nicht von der absoluten Exakt
heit der dargestellten Periodizität abhängt. Es ist möglich,
daß keine exakten Wiederholungen auftreten, sondern eine syste
matische Modifikation der typischen Wellenform eines Signalpro
fils innerhalb eines Phonems erfolgt. Diese Variation wird je
doch bei dem unten im einzelnen erläuterten Verfahren berück
sichtigt, da sie die Freiheit in den nach der Projektion Q ver
bleibenden Richtungen repräsentiert. Zur Berücksichtigung der
Variation (Abweichung von exakten Wiederholungen) wird hier der
Begriff der annähernd periodischen Signalprofile verwendet, die
sich von exakt periodischen Signalprofilen lediglich durch eine
systematische Variabilität unterscheiden.
Bei einer Zeitversatzeinbettung (mit geeignet gewählten Parame
tern m und τ, s. o.) bilden die gezeigten Wiederholungen benach
barte Punkte im Zustandsraum (bzw. Vektoren, die auf diese
Punkte gerichtet sind). Ist nun die Variabilität in diesen
Punkten durch eine Überlagerung durch Rauschen größer als die
natürliche Variabilität aufgrund der Nichtstationarität, so
wird eine approximative Identifikation der Mannigfaltigkeit und
die Projektion darauf das Rauschen stärker reduzieren als es
das eigentliche Signal beeinflußt. Dies ist der Grundansatz des
erfindungsgemäßen Verfahrens, das im folgenden unter Bezug auf
das Flußdiagramm gemäß Fig. 3 erläutert wird.
Fig. 3 ist eine Übersichtsdarstellung, die schematisch grund
sätzliche Schritte des erfindungsgemäßen Verfahrens zeigt. Die
Erfindung ist jedoch nicht auf diesen Ablauf beschränkt. Anwen
dungsabhängig kann eine Modifizierung in Bezug auf die Daten
aufnahme, die Paramterermittlung, die eigentliche Berechnung
zur Rauschreduzierung, die Trennung von Leistungs- und
Rauschanteilen und die Ausgabe des Ergebnisses vorgesehen sein.
Gemäß Fig. 3 erfolgt nach dem Start 100 die Datenaufnahme 101
und die Parameterermittlung 102. Die Datenaufnahme 101 umfaßt
die Aufnahme eines Schallsignals durch Umwandlung des Schalls
in eine elektrische Größe. Die Datenaufnahme kann zur analogen
oder digitalen Schallaufzeichnung eingerichtet sein. Anwen
dungsabhängig wird das Schallsignal in einem Datenspeicher oder
bei Echtzeitverarbeitung in einem Pufferspeicher (s. Fig. 9)
gespeichert. Die Parameterermittlung 102 umfaßt die Auswahl von
Parametern, die für die spätere Suche nach Korrelationen zwi
schen benachbarten Zuständen im Schallsignal geeignet sind.
Diese Parameter umfassen insbesondere die Einbettungsdimension
m, den Abtastabstand τ, die zeitliche Breite der Umgebung U und
die Zahl Q der Zeitversatzvektoren, auf die die Zustandsprojek
tion erfolgen soll.
Bei der Sprachsignalverarbeitung kann die Einbettungsdimension
m beispielsweise im Bereich von 10-50, vorzugsweise 20-30, und
der Abtastabstand τ im Bereich von 1 bis 10 ms, vorzugsweise 3
bis 5 ms liegen. Dementsprechend beträgt die Dauer des Einbet
tungsfensters im Bereich von rund 10 ms bis 500 ms, vorzugswei
se 60 ms bis 150 ms (z. B. 80 ms). Diese Daten beziehen sich auf
eine Phonemdauer von rund 40 ms bis 500 ms, vorzugsweise 50 ms
bis 150 ms, bei typischen Signalprofilen im Bereich von 3 ms
bis 20 ms, z. B. 5 ms bis 10 ms. Die Darstellung gemäß Fig. 2
zeigt beispielsweise Wiederholungen des Signalprofils nach je
weils 7 ms. Die Parameterermittlung 102 (Fig. 3) kann im Zusam
menspiel mit der Datenaufnahme 101 erfolgen oder im Rahmen ei
ner Vorabanalyse durchgeführt worden sein. Bei einer Vorab
analyse wird die Einbettungsdimension m und die Dimension der
Mannigfaltigkeit (entsprechend dem Parameter Q), in der die un
verrauschten Daten lägen, abgeschätzt. Es kann auch vorgesehen
sein, daß die Parameterermittlung 102 während des Verfahrens
wiederholt wird. Dies kann beispielsweise als Korrektur in
Reaktion auf das Ergebnis der Leistungs-/Rausch-Trennung 109
(s. u.) erfolgen.
Auf der Grundlage der aufgenommenen Meßwerte und der festgeleg
ten Parameter folgt die Signalabtastung 103. Die Signalabta
stung 103 ist dazu vorgesehen, die Werte der Zeitreihen yn ent
sprechend den vorher festgelegten Abtastparametern aus den Da
ten zu ermitteln. Die folgenden Schritte 104 bis 109 stellen
die eigentliche Berechnung der Projektionen der realen Schall
signale auf unverrauschte Schallsignale oder -zustände dar.
Der Schritt 104 umfaßt die Bildung des ersten Zeitversatzvek
tors für ein erstes einer Vielzahl von sich wiederholenden Si
gnalprofilen (z. B. gemäß Fig. 2). Dieser erste Zeitversatzvek
tor muß sich nicht notwendigerweise auf das zeitlich zuerst er
scheinende erste Signalprofil beziehen. Dies wird jedoch insbe
sondere bei Echtzeit- oder Quasiechtzeitverarbeitungen bevor
zugt. Der Zeitversatzvektor umfaßt als m Komponenten aufeinan
derfolgende, abgetastete Signalwerte yn. Anschließend werden
bei Schritt 105 benachbarte Zeitversatzvektoren (Nachbarvekto
ren) gebildet bzw. erfaßt. Die Nachbarvektoren beziehen sich
auf Signalprofile in der zeitlichen Umgebung des zuerst be
trachteten Signalprofils bzw. Zeitversatzvektors. Die Zahl der
Nachbarvektoren entspricht im wesentlichen der Zahl sich wie
derholender Signalprofile innerhalb des betrachteten Signalab
schnittes. Bei der Sprachverarbeitung wiederholen sich etwa 20
Signalprofile innerhalb eines Phonems. Die Zahl der ermittelten
Nachbarvektoren ist kleiner oder gleich der Zahl sich wiederho
lender Signalprofile und beträgt beispielsweise rund 5 bis 20.
Anschließend folgt die Berechnung der Kovarianzmatrix 106 ent
sprechend der oben angegeben Gleichung (2). Die zugrundeliegen
de Umgebung U wird durch den Signalabschnitt mit den sich wie
derholenden Signalprofilen bzw. durch die zeitliche Lage der in
Betracht gezogenen Zeitversatzvektoren definiert. Der Schritt
106 umfaßt auch die Ermittlung der Q größten Singulärwerte der
Kovarianzmatrix und der dazugehörigen Zeitversatzvektoren.
Im Rahmen der folgenden Projektion 107 werden alle Anteile des
ersten Zeitversatzvektors, die nicht in dem von den Q ermittel
ten dominanten Vektoren aufgespannten Unterraum liegen, elimi
niert. Der Wert Q liegt im Bereich von rund 2 bis 10, vorzugs
weise 4 bis 6.
Die verhältnismäßig geringe Zahl Q, die die Dimension des Un
terraumes repräsentiert, auf die die Zustände bzw. Signale pro
jiziert werden, stellt einen besonderen Vorteil der Erfindung
dar. Es wurde festgestellt, daß die Wellendynamik innerhalb ei
nes gegebenen Phonems nur relativ wenige Freiheitsgrade be
sitzt, wenn sie einmal innerhalb eines hochdimensionalen Raumes
identifiziert worden ist. Daher sind auch verhältnismäßig weni
ge Nachbarzustände für die Projektionsberechnung erforderlich.
Für die Erfassung der Korrelation zwischen den Signalprofilen
sind nur die größten Singulärwerte und entsprechenden Singulär
vektoren der Kovarianzmatrix relevant. Dieses Ergebnis ist
überraschend, da die nicht-lineare Rauschreduzierung an sich für
deterministische Systeme mit umfangreichen Zeitreihen entwic
kelt wurde. Außerdem ergibt sich als besonderer Vorteil ein
verhältnismäßig geringer Zeitaufwand für die Berechnung.
Anschließend wird der nächste Zeitversatzvektor bei Schritt 108
ausgewählt und die Schrittfolge 105-107 wiederholt. Diese Wie
derholung erfolgt, bis sämtliche Zeitversatzvektoren innerhalb
der betrachteten Umgebung U abgearbeitet sind.
Die Bildung bzw. Erfassung der Nachbarvektoren (Schritt 105)
erfolgt übrigens bei einer höheren Dimension als die Projektion
107. Die hohe Dimension bei der Nachbarsuche garantiert die
Auswahl der richtigen Nachbarn, die aber an sich, wie oben aus
geführt, lokal wesentlich weniger Freiheitsgrade repräsentie
ren, so daß innerhalb des durch die Singulärvektoren aufge
spannten Unterraumes niedrigdimensional und schnell gearbeitet
werden kann. Für Echtzeitanwendungen erfolgt die Schallsignal
verarbeitung im wesentlichen für die Phoneme aufeinanderfol
gend, so daß Phonem für Phonem komplett abgearbeitet und so ein
entrauschtes Ausgangssignal erzeugt wird. Dieses Ausgangssignal
ist gegenüber dem erfaßten Schallsignal (Eingangssignal) um
rund 100-200 ms verzögert (Echtzeit- oder auch Quasi-Echtzeit
anwendung).
Die Schritte 109 und 110 betreffen die Bildung des eigentlichen
Ausgangssignals. Der Schritt 109 ist auf die Trennung von Lei
stungs- und Rauschsignalen gerichtet. Ein entrauschtes Zeitrei
henelement sk wird durch Mittlung über die korrespondierenden
Elemente aus allen Zeitversatzvektoren, die dieses Element ent
halten, gebildet. Statt einer einfachen Mittlung kann eine ge
wichtete Mittlung eingeführt werden. Nach Schritt 109 kann ein
Rücksprung vor Schritt 104 vorgesehen sein. Die entrauschten
Zeitreihenelemente bilden dann die Eingangsgrößen für die er
neute Bildung von Zeitversatzvektoren und deren Projektion auf
den Unterraum entsprechend den Singulärvektoren. Diese Verfah
renswiederholung ist nicht notwendig, kann aber zur Verbesse
rung der Rauschreduzierung z. B. 2- oder 3-fach vorgesehen sein.
Nach Schritt 109 kann aber auch ein Rücksprung zur Parameterer
mittlung 102 vorgesehen sein, falls der nach Schritt 109 vor
liegende Leistungsanteil sich weniger als erwartet (z. B. durch
weniger als einen vorbestimmten Schwellwert) vom unverarbeite
ten Schallsignale unterscheidet. Hierzu können im Verfahrensab
lauf nicht dargestellte Entscheidungsmechanismen eingebaut
sein. Bei Schritt 110 folgt die Datenausgabe. Bei der Rauschre
duzierung wird als Leistungsanteil das rauschreduzierte Sprach
signal ausgegeben. Alternativ kann aber auch anwendungsabhängig
gerade die Ausgabe oder Speicherung des Rauschanteils vorgese
hen sein.
Im folgenden wird die erfindungsgemäße Signalverarbeitung an
zwei Beispielen illustriert. Beim ersten Beispiel ist das ver
arbeitete Schallsignale ein menschlicher Pfiff (s. Fig. 4). Das
zweite Beispiel betrifft die oben genannten Worte "Buon giorno"
(s. Fig. 5 bis 8).
Fig. 4 zeigt das Leistungsspektrum für einen menschlichen Pfiff
der Dauer 3 s. Ein Pfiff ist ein im wesentlichen periodisches
Signal mit charakteristischen Harmonischen und nur geringen
Nicht-Stationaritäten. Fig. 4a zeigt den Amplitudenverlauf der
Originalaufzeichnung. Nach numerischer Addition eines 10-%igen
Rauschens ergibt sich das in Fig. 4b dargestellte Spektrum.
Dieses liefert die Eingangsdaten für Schritt 101 des Verfah
rensablaufes (Fig. 3). Nach der erfindungsgemäßen Rauschredu
zierung ergibt sich das in Fig. 4c gezeigte Bild. Dieses zeigt
die vollständige Wiederherstellung des ursprünglichen, unver
rauschten Signals. Die Fig. 4a bis 4c zeigen einen besonde
ren Vorteil der Erfindung gegenüber einem herkömmlichen Filter
im Frequenzraum. Ein Filter im Frequenzraum würde alle Lei
stungsanteile mit Amplituden unterhalb 10-6 abschneiden, so daß
das entrauschte Spektrum nur noch den Peak bei 0 und den Peak
um die Grundfrequenz enthielte. Dementsprechend wäre die aus
der Rücktransformation gewonnene Zeitreihe völlig ohne Ober
schwingungen, was sich sehr synthetisch anhören würde. Diese
Nachteile werden bei der erfindungsgemäßen Rauschreduzierung
vermieden.
Fig. 5 zeigt entsprechende Ergebnisse am Beispiel von Kurven
darstellungen für die Verarbeitung von Sprachsignalen. In Fig.
5a ist ein Ausschnitt aus dem unverrauschten Wellenzug der Wor
te "Buon giorno" bezogen auf den Signalverlauf gemäß Fig. 1
analog zu Fig. 2 gezeigt. Es ist die zeitlich begrenzte Wieder
holung von Signalprofilen erkennbar, die die zur Reduktion des
Rauschens notwendige Redundanz enthält. Fig. 5b zeigt den Wel
lenzug nach Addition eines synthetischen Rauschens. Nach der
erfindungsgemäßen Rauschreduzierung ergibt sich das Bild gemäß
Fig. 5c. Es zeigt sich, daß das Originalsignal zum größten Teil
rekonstruiert werden konnte.
Die Funktionsfähigkeit der erfindungsgemäßen Rauschreduzierung
wurde in verschiedenen Rauscharten und -amplituden geprüft. Als
Maß für die Leistungsfähigkeit der Rauschreduzierung kann die
Dämpfung D (in dB) gemäß Gleichung (3) betrachtet werden.
D = 10 log ((Σ(k-xx)2)/(Σ(yk -xk)2)) (12)
In Gleichung (3) steht xk für das unverrauschte Signal (Lei
stungsanteil), yk für das verrauschte Signal (Eingangs-
Schallsignal) und k für das Signal nach der erfindungsgemäßen
Rauschreduzierung.
Fig. 6 illustriert die Abhängigkeit der Dämpfung D der nichtli
near Rauschreduzierung in Abhängigkeit von der relativen Rau
schamplitude (Varianz des Rauschanteils. Varianz des
Leistungsanteils). Es zeigt sich, daß die Dämpfung ein Maximum
für relative Rauschamplituden im Bereich von rund 10% besitzt.
Negative Dämpfungen bei niedrigen Rauschamplituden zeigen an,
daß schwach gestörte Signale durch die erfindungsgemäße
Rauschreduzierung selbst gestört werden.
Die Fig. 7 und 8 zeigen weitere Einzelheiten der Sprach
rauschreduzierung. Fig. 7 illustriert das Auftreten sich wie
derholender Signalprofile innerhalb des im oberen Teil der Fi
gur gezeigten Phonemzuges. In Abhängigkeit von einem (willkür
lichen) Zeitindex i ist im unteren Teil der Figur ein Kurven
bild gedruckt, das aus unter den folgenden Bedingungen gebilde
ten Punkten besteht. Für jeden Zeitpunkt i wird der zugehörige
Zeitversatzvektor i und die Menge aller Zeitversatzvektoren
j,i betrachtet. Falls der Betrag des Differenzvektors zwischen
dem i und jedem j kleiner als eine vorbestimmte Grenze ist,
wird ein Punkt gedrückt. Die Punkte bilden mehr oder wenige
ausgedehnte Linien. Die Linienstrukturen zeigen, daß innerhalb
der Phoneme die oben erläuterten Periodizitäten der Signalpro
file auftreten. Für Linienstrukturen, die in Ordinatenrichtung
besonders ausgedehnt sind, gilt, daß die Anzahl von intra-
Phonem-Nachbarn besonders groß ist. Es zeigt sich jedoch auch,
daß in der Regel für |i-j| < 2000 keine Wiederholungen auftre
ten.
Fig. 8 zeigt wiederum am Beispiel der Worte "Buon giorno" im
oberen Teil der Figur das unverrauschte Signal, im mittleren
Teil das synthetisch hinzugefügte Rauschen und im unteren Teil
das nach der Rauschreduzierung verbliebene Rauschen. Die Ordi
natenskalierung ist in allen drei Fällen identisch. Das ver
bleibende Rauschen (unterster Teil der Figur) zeigt eine syste
matische Variation, die darauf hinweist, daß der Erfolg der er
findungsgemäßen Rauschreduzierung selbst vom Schallsignal, d. h.
vom konkreten Phonem, abhängt.
Gegenstand der Erfindung ist auch eine Vorrichtung zur Imple
mentierung des erfindungsgemäßen Verfahrens. Gemäß Fig. 9 um
faßt eine Rauschreduzierungsanordnung einen Meßwertaufnehmer
91, einen Datenspeicher 92 und/oder einen Pufferspeicher 93,
eine Abtastschaltung 94, eine Rechenschaltung 95 und eine Aus
gabeeinheit 96.
Die hier vorgestellten Komponenten der erfindungsgemäßen Vor
richtung werden vorzugsweise als festverschaltete Schalt
kreisanordnung oder als interierter Chip hergestellt.
Im folgenden werden bevorzugte Anwendungen der Erfindung ge
nannt. Neben der bereits genannten Rauschreduzierung an Sprach
signalen ist die Erfindung auch bei der Rauschreduzierung an
Hörgeräten und zur Verbesserung der computergestützten automa
tischen Spracherkennung anwendbar. In Bezug auf die Spracher
kennung kann insbesondere vorgesehen sein, die entrauschten
Zeitreihenwerte bzw. Sektoren mit Tabellenwerten zu verglei
chen. Die Tabellenwerte repräsentieren entsprechende Werte bzw.
Vektoren vorbestimmter Phoneme. Eine automatische Spracherken
nung kann somit mit dem Rauschreduzierungsverfahren integriert
werden.
Weitere Anwendungen liegen im Bereich der Telekommunikation und
bei der Signalverarbeitung anderer Schallquellen als der
menschlichen Sprache. Hierzu zählen beispielsweise Tierstimmen
oder auch Musik.
Claims (11)
1. Verfahren zur Signalverarbeitung eines Schallsignals y,
bei dem innerhalb vorbestimmter Signalabschnitte des
Schallsignals annähernd periodische Signalprofile erfaßt
und Korrelationen zwischen den Signalprofilen ermittelt
werden, wobei korrelierte Signalanteile einem Leistungs
anteil und unkorrelierte Signalanteile einem Rauschanteil
des Schallsignals zugeordnet werden.
2. Verfahren gemäß Anspruch 1, bei dem die Korrelationen
zwischen den Signalprofilen mit Verfahren der nicht-
linearen Rauschreduzierung in deterministischen Systemen
ermittelt werden.
3. Verfahren gemäß Anspruch 1, bei dem das Schallsignal y,
das sich aus einem Sprachanteil x und einem Rauschanteil
r zusammensetzt in jedem Signalabschnitt gemäß den fol
genden Schritten verarbeitet wird:
- a) Erfassung einer Vielzahl von Schallsignalwerten yk = xk + rk mit einem Abtastabstand τ,
- b) Bildung einer vorbestimmten Anzahl von N Zeitver satzvektoren, von denen jeder aus Komponenten be steht, deren Anzahl m eine Einbettungsdimension der Zeitversatzvektoren und deren Werte yk ein Einbet tungsfenster der Breite m.τ darstellen, in einer vorbestimmten Umgebung U, in der die annähernd pe riodischen Signalprofile auftreten,
- c) Ermittlung von Korrelationen zwischen den Zeitver satzvektoren und Projektion der Zeitversatzvektoren auf vorbestimmte Singulärwertvektoren, und
- d) Ermittlung von Nutzsignalwerten, die ein Sprachsi gnal, das im wesentlichen dem Sprachanteil xk ent spricht und/oder ein Rauschsignal bilden, das im wesentlichen dem Rauschanteil rk entspricht.
4. Verfahren gemäß Anspruch 3, bei der die Zahl N der gebil
deten Zeitversatzvektoren der Zahl der sich im Signalab
schnitt annähernd periodisch wiederholenden Signalprofile
entspricht.
5. Verfahren gemäß Anspruch 3, bei dem die Korrelationen
zwischen den Zeitversatzvektoren durch Berechnung einer
Kovarianzmatrix im betrachteten Signalabschnitt erfolgt.
6. Verfahren gemäß Anspruch 3, bei dem die Schritte b) bis
c) mit den Nutzsignalwerten mindestens einmal wiederholt
werden.
7. Verfahren gemäß Anspruch 3, bei dem das Schallsignal ein
Sprachsignal ist.
8. Verfahren gemäß einem der Ansprüche 3 bis 7, bei dem der
Abtastabstand im Bereich von 1 bis 10 ms und die Dauer
des Einbettungsfensters im Bereich von rund 10 bis 500 ms
liegen.
9. Vorrichtung zur Durchführung eines Verfahrens gemäß einem
der vorhergehenden Ansprüche, die einen Meßwertaufnehmer
(91), einen Datenspeicher (92) und/oder einen Pufferspei
cher (93), eine Abtastschaltung (94), eine Rechenschal
tung (95) und eine Ausgabeeinheit (96) aufweist.
10. Verwendung eines Verfahrens gemäß einem der Ansprüche 1
bis 8 zur Rauschreduzierung an Sprachsignalen in der Te
lekommunikation, in Hörgeräten oder bei der automatischen
Spracherkennung.
11. Verwendung nicht-linearer Rauschreduzierungsverfahren für
deterministische Systeme zur Rauschreduzierung von
Sprachsignalen.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19859174A DE19859174C1 (de) | 1998-12-21 | 1998-12-21 | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale |
US09/465,643 US6502067B1 (en) | 1998-12-21 | 1999-12-17 | Method and apparatus for processing noisy sound signals |
JP11363321A JP2000194400A (ja) | 1998-12-21 | 1999-12-21 | 雑音の多い音響信号を処理する方法および装置 |
EP99125575A EP1014340A3 (de) | 1998-12-21 | 1999-12-21 | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19859174A DE19859174C1 (de) | 1998-12-21 | 1998-12-21 | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19859174C1 true DE19859174C1 (de) | 2000-05-04 |
Family
ID=7892062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19859174A Expired - Fee Related DE19859174C1 (de) | 1998-12-21 | 1998-12-21 | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale |
Country Status (4)
Country | Link |
---|---|
US (1) | US6502067B1 (de) |
EP (1) | EP1014340A3 (de) |
JP (1) | JP2000194400A (de) |
DE (1) | DE19859174C1 (de) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
EP1585112A1 (de) * | 2004-03-30 | 2005-10-12 | Dialog Semiconductor GmbH | Geräuschunterdrückung ohne Signalverzögerung |
ES2354702T3 (es) * | 2005-09-07 | 2011-03-17 | Biloop Tecnologic, S.L. | Método para el reconocimiento de una señal de sonido implementado mediante microcontrolador. |
US20070076001A1 (en) * | 2005-09-30 | 2007-04-05 | Brand Matthew E | Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data |
WO2007103037A2 (en) | 2006-03-01 | 2007-09-13 | Softmax, Inc. | System and method for generating a separated signal |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US9228785B2 (en) | 2010-05-04 | 2016-01-05 | Alexander Poltorak | Fractal heat transfer device |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
JP2014085609A (ja) * | 2012-10-26 | 2014-05-12 | Sony Corp | 信号処理装置および方法、並びに、プログラム |
CN103811017B (zh) * | 2014-01-16 | 2016-05-18 | 浙江工业大学 | 一种基于Welch法的冲床噪声功率谱估计改进方法 |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
JP6793299B2 (ja) | 2015-08-26 | 2020-12-02 | パナソニックIpマネジメント株式会社 | 信号検出装置及び信号検出方法 |
WO2018013668A1 (en) | 2016-07-12 | 2018-01-18 | Alexander Poltorak | System and method for maintaining efficiency of a heat sink |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN110349592B (zh) * | 2019-07-17 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
JP7271360B2 (ja) * | 2019-07-31 | 2023-05-11 | 株式会社Nttドコモ | 状態判定システム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1293693C (en) * | 1985-10-30 | 1991-12-31 | Tetsu Taguchi | Noise canceling apparatus |
KR950013124B1 (ko) * | 1993-06-19 | 1995-10-25 | 엘지전자주식회사 | 케이오스(chaos) 피이드백 시스템 |
US6000833A (en) * | 1997-01-17 | 1999-12-14 | Massachusetts Institute Of Technology | Efficient synthesis of complex, driven systems |
US6208951B1 (en) * | 1998-05-15 | 2001-03-27 | Council Of Scientific & Industrial Research | Method and an apparatus for the identification and/or separation of complex composite signals into its deterministic and noisy components |
-
1998
- 1998-12-21 DE DE19859174A patent/DE19859174C1/de not_active Expired - Fee Related
-
1999
- 1999-12-17 US US09/465,643 patent/US6502067B1/en not_active Expired - Fee Related
- 1999-12-21 EP EP99125575A patent/EP1014340A3/de not_active Withdrawn
- 1999-12-21 JP JP11363321A patent/JP2000194400A/ja active Pending
Non-Patent Citations (7)
Title |
---|
E. TAKENS:"Detecting Strange Attractors in Turbu- lence", In: Lecture Notes in Math., Bd. 898, Springer, New York, 1981 * |
E.J. KOSTELICH et al.:" Phys. Rev. E.",Bd.48,1993,S. 1752 * |
H. KANTZ et al.:"Nonlinear Time Series Analysis", Cambridge University Press, Cambridge, 1997 * |
H. KANTZ et al.:"Phys.Rev.E.",Bd.48,1993, S.1529 * |
H.D.I. ARBANEL:"Analysis of Observed Chaotic Data"Springer New York, 1996 * |
P. GRASSBERGER et al.: "Chaos", Bd.3, 1993, S.127 * |
T. SAUER et al.: J. Stat. Phys., Bd.65, 1991, S. 579 * |
Also Published As
Publication number | Publication date |
---|---|
US6502067B1 (en) | 2002-12-31 |
JP2000194400A (ja) | 2000-07-14 |
EP1014340A3 (de) | 2001-07-18 |
EP1014340A2 (de) | 2000-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19859174C1 (de) | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale | |
DE60104091T2 (de) | Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung | |
DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69925905T2 (de) | Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens | |
EP2158588B1 (de) | Spektralglättungsverfahren von verrauschten signalen | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69420027T2 (de) | Rauschverminderung | |
DE60225400T2 (de) | Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals | |
DE2719973C2 (de) | ||
DE69417445T2 (de) | Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen | |
DE602005000896T2 (de) | Sprachsegmentierung | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE102007001255A1 (de) | Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm | |
DE69420183T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE112016006218T5 (de) | Schallsignalverbesserung | |
DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
EP1193689A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE69020736T2 (de) | Wellenanalyse. | |
EP3065417A1 (de) | Verfahren zur unterdrückung eines störgeräusches in einem akustischen system | |
DE69906569T2 (de) | Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals | |
EP2080197B1 (de) | Vorrichtung zur geräuschunterdrückung bei einem audiosignal | |
DE102014207437A1 (de) | Spracherkennung mit einer Mehrzahl an Mikrofonen | |
DE10047718A1 (de) | Verfahren zur Spracherkennung | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |