DE4012349A1 - Einrichtung zum beseitigen von geraeuschen - Google Patents
Einrichtung zum beseitigen von geraeuschenInfo
- Publication number
- DE4012349A1 DE4012349A1 DE19904012349 DE4012349A DE4012349A1 DE 4012349 A1 DE4012349 A1 DE 4012349A1 DE 19904012349 DE19904012349 DE 19904012349 DE 4012349 A DE4012349 A DE 4012349A DE 4012349 A1 DE4012349 A1 DE 4012349A1
- Authority
- DE
- Germany
- Prior art keywords
- noise
- speech
- feature set
- incoming
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003595 spectral effect Effects 0.000 title abstract description 11
- 230000008030 elimination Effects 0.000 title abstract description 7
- 238000003379 elimination reaction Methods 0.000 title abstract description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000005534 acoustic noise Effects 0.000 abstract description 2
- 230000001629 suppression Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract 2
- 238000000034 method Methods 0.000 description 31
- 238000001228 spectrum Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000011410 subtraction method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001212789 Dynamis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Description
Die Erfindung betrifft eine Einrichtung zum Beseitigen von
Geräuschen nach den Oberbegriffen der Ansprüche 1 und 5 und
betrifft insbesondere eine geräusche-beseitigende Einrich
tung, welche Komponenten von Hintergrundgeräuschen, die in
einem Sprachsignal enthalten sind, aus einem Spracheingang
in eine Spracherkennungseinrichtung entfernt. Ferner ist
die Erfindung auf eine Spracherkennungseinrichtung mit ei
ner derartigen geräusche-beseitigenden Einrichtung gerich
tet. Die Erfindung ist in Verbindung mit einer Spracherken
nung in geräuschvoller Umgebung, wie beispielsweise in Fahr
zeugen, Büros, Wohnungen und Fabriken, anwendbar.
Bei der Spracherkennung wird durch das Vorhandensein von
Hintergrundgeräuschen in der ankommenden Sprache die Sprach
erkennungsrate beträchtlich verschlechtert. Folglich ist
das Beseitigen von Hintergrundgeräuschen in ankommender Spra
che ein ernsthaftes Problem, das zu lösen ist, wenn eine
Spracherkennungseinrichtung in der Praxis eingesetzt wer
den soll. Beispielsweise sollen Spracherkennungstechniken
in einem fahrenden Fahrzeug beispielsweise als Tonsteuerung,
Navigationssystemsteuerung und Sprachwählsteuerung angewen
det werden. Es ist schwierig, ein Mikrophon mit einem hohen
Signal-Rausch-Verhältnis (S/N-Verhältnis) zu verwenden, wel
ches in der Nähe des Mundes eines Sprechers angebracht ist,
wie beispielsweise ein Nahbesprechungsmikrophon.
Eine Vielzahl von Hintergrundgeräuschen, wie Motorengeräusche,
Geräusche von abrollenden Rädern oder aus Radio- oder Stereo
geräten wiedergegebene Klänge werden zu einer Sprache hinzu
addiert, welche über das Mikrophon aufgenommen wird. Durch
das Vorhandensein von Hintergrundgeräuschen wird das Erken
nen von aufgenommener Sprache verschlechtert. Von den ver
schiedenen, vorstehend erwähnten Geräuschen hängen die
Geräusche von Motoren und Rädern von der Fahrzeuggeschwin
digkeit ab und ändern sich stark in Abhängigkeit von der Um
gebung. Ebenso ändern sich die aus Radio- oder Stereogerä
ten wiedergegebenen Klänge stark in Abhängigkeit von der
Frequenz und deren Amplitudenpegel. Unter diesem Gesichts
punkt müssen daher geräusche-beseitigende Techniken geschaf
fen werden, welche unabhängig von der Größe des Hintergrund
geräusches sind, und mit welchen wirksam Geräuschkomponenten
beseitigt und eliminiert werden können, selbst wenn der Fre
quenzbereich des Geräusches sich ändert.
Es ist ein spektrales Subtraktionsverfahren bekannt, wel
ches im allgemeinen angewendet wird, um Geräuschkomponen
ten in einem Spracheingang zu einer Spracherkennungsein
richtung zu beseitigen, und bei welchem als Sprachmerkmale
zeit-spektrale Muster verwendet werden. (Siehe "SUPPRESSION
OF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION", S.
F. Boll, IEEE Trans. ASSP-27, Nr. 2, Stn. 113-120, 1979).
Bei dem vorgeschlagenen Subtraktionsverfahren wird ein Ein
gang über einem Abschnitt gemittelt, in welchem keine Spra
che vorhanden ist, ein gemittelter Eingangswert wird als ein
Geräuschspektrum gehalten, und das Geräuschspektrum wird von
einem Spektrum einer aufgenommenen Sprache subtrahiert, wel
che Geräuschkomponenten enthält. Das Subtraktionsergebnis
wird als ein endgültiges Sprachspektrum abgegeben. Hierbei
ist jedoch zu beachten, daß das vorgeschlagene Verfahren auf
der Annahme beruht, das Hintergrundrauschen bezüglich der
Zeitbasis stationär ist, wie beispielsweise weißes Rauschen.
Folglich ist das vorgeschlagene Verfahren nur wirksam bezüg
lich stationärer Geräusche, aber weniger wirksam im Hinblick
auf dynamische Geräusche. Insbesondere kann, wenn stationäre
Geräusche sehr laute Komponenten haben, das vorgeschlagene
Verfahren solche Geräuschkomponenten nicht wirksam beseiti
gen.
Es ist auch ein adaptives, Geräusche unterdrückendes Verfah
ren bekannt, bei welchem ein Primäreingang und ein Bezugs
eingang verwendet wird (siehe "ADAPTIVE NOISE CANCELLING:
PRINCIPLES AND APPLICATION", B. Widraw et al., Proc, IEEE,
Vol. 63, Nr. 12, Stn. 1692 bis 1716, 1975). Ferner ist eine
Geräusche-Unterdrückungseinrichtung bekannt, bei welcher
das vorstehend angeführte adaptive Geräusche-Unterdrückungs-
Verfahren angewendet ist (Siehe die am 25.9.1989 veröffent
lichte japanische Patentanmeldung Nr. 1-2 39 596, welche der
am 14. März 1988 eingereichten US-Patentanmeldung S.N.
1 67 619 entspricht). Ein in der vorerwähnten japanischen
Patentanmeldung beschriebenes adaptives Filter entspricht
einer Verbesserung des adaptiven Geräusche-Unterdrückungs
verfahren, welches in der Veröffentlichung von Widraw et al
beschrieben ist, in welcher ein Koeffizient, welcher ein
Ausgleichen der Amplituden- und Phasendifferenz zwischen
den zwei Eingängen betrifft, für jeden der Vielzahl Frequenz
bereiche vorgesehen ist, so daß Geräuschkomponenten, die von
einer Vielzahl Geräuschquellen stammen, unterdrückt werden
können. Jedoch haben die adaptiven Geräusche-Unterdrückungs
verfahren mit zwei Eingängen einen Nachteil, daß es nämlich
schwierig ist, infolge der Tatsache, daß die Werte der Ko
effizienten, welche bestimmt werden, wenn ein Geräusch ge
ring ist, große Fehler aufweisen, ein Geräusch wirksam zu
unterdrücken. Aus diesem Grund eignet sich eine spektrale
Subtraktionsmethode mit einem einzigen Eingang für dynami
sches Geräusch mit einem geringen Pegel eher als die spek
trale Subtraktionsmethode mit zwei Eingängen.
Bei Abwägen der vorerwähnten Vorteile und Nachteile er
gibt sich, daß ein gewisser Schwellenwert vorgesehen ist und
erst bei einer Geräuschbehandlung und -verarbeitung zwischen
den spektralen Subtraktionsverfahren mit einem einzigen Ein
gang und mit zwei Eingängen umgeschaltet wird, indem der
Hintergrundgeräuschpegel mit dem Schwellenwertpegel ver
glichen wird. Dies hat jedoch die folgenden Nachteile.
Erstens zeigen sich, wenn der Hintergrundgeräuschpegel nahe
bei dem Schwellenwertpegel liegt, die Nachteile der vorer
wähnten zwei Verfahren. Zweitens ist es sehr schwierig, die
Sprachmuster, in welchen Geräusche beseitigt sind, und wel
che aus den zwei Verfahren abgeleitet werden, gleichmäßig
zu behandeln. Infolge der vorerwähnten beiden Gründe ist
die Erkennungsrate in der Nähe von Geräuschpegeln außeror
dentlich niedrig. Drittens müssen, wenn Geräuschpegel nahe
den Schwellenwertpegeln liegen, die beiden Verfahren durch
geführt werden, wobei dann bei dieser Methode eine größere
Datenmengen zu verarbeiten ist.
Darüber hinaus wird im allgemeinen das Einstellen verschiede
ner Koeffizienten zum Beseitigen von Geräuschelementen nicht
nur in herkömmlichen spektralen Subtraktionsverfahren, son
dern auch in adaptiven Geräuschunterdrückungsverfahren in
einem Abschnitt außer einem Sprachabschnitt durchgeführt.
Das heißt, die Prozedur zum Erneuern derartiger Koeffizien
ten wird nicht in einem Sprachabschnitt durchgeführt. Wenn
dynamisches Rauschen (dessen Pegel oder Frequenz oder die
Position einer Geräuschquelle) sich während des Sprachab
schnitts ändert, ist es unmöglich, geeignete Werte von Ko
effizienten auszuwählen und somit Geräuschkomponenten zu be
seitigen.
Gemäß der Erfindung soll daher eine Einrichtung zum Beseiti
gen bzw. Eliminieren von Geräuschen geschaffen werden, wel
che die vorerwähnten Nachteile nicht mehr aufweist. Darüber
hinaus soll gemäß der Erfindung eine Einrichtung zum Besei
tigen von Geräuschen geschaffen werden, bei welchem Hinter
grundgeräuschkomponenten aus einem Sprachsignal, welches die
selben enthält, wirksam beseitigt bzw. eliminiert werden
können. Darüber hinaus soll gemäß der Erfindung eine Einrich
tung zum Beseitigen von Geräuschen geschaffen werden, bei
welcher wirksam Hintergrundgeräuschkomponenten aus einem
Sprachsignal, welches dieselben enthält, ungeachtet der
Pegel der Hintergrundgeräusch-Komponenten beseitigt werden
können. Darüber hinaus soll gemäß der Erfindung eine Einrich
tung zum Beseitigen von Geräuschen geschaffen werden, bei
welcher Koeffizienten zum Beseitigen von Geräusch so oft wie
möglich erneuert werden, so daß in einem Sprachsignal ent
haltene Hintergrundgeräusche entsprechend einer Geräuschän
derung wirksam beseitigt werden.
Gemäß der Erfindung ist dies bei einer Einrichtung zum Be
seitigen von Geräuschen nach den Oberbegriffen der Ansprüche
1 oder 5 durch die Merkmale in deren kennzeichnenden Teil er
reicht. Vorteilhafte Weiterbildungen der Erfindung sind Ge
genstand der auf die vorgenannten Ansprüche 1 und 5 unmittel
bar bzw. mittelbar rückbezogenen Unteransprüche.
Ferner soll gemäß der Erfindung eine Spracherkennungsein
richtung mit der erfindungsgemäßen Einrichtung zur Beseiti
gung von Geräuschen geschaffen werden. Gemäß der Erfindung
ist eine derartige Spracherkennungseinrichtung nach dem
Oberbegriff des Anspruchs 6 durch die Merkmale in dessen
kennzeichnenden Teil gelöst. Vorteilhafte Weiterbildungen
einer Spracherkennungseinrichtung nach Anspruch 6 sind Ge
genstand der Unteransprüche 7 bis 9. Eine vorteilhafte Wei
terbildung einer Spracherkennungseinrichtung ist durch die
Merkmale im kennzeichnenden Teil des Anspruchs 10 gekenn
zeichnet.
Nachfolgend wird die Erfindung anhand von bevorzugten Aus
führungsbeispielen unter Bezugnahme auf die anliegenden
Zeichnungen im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Einrichtung zum Beseiti
gen von Geräuschen gemäß einer ersten bevorzugten
Ausführungsform der Erfindung;
Fig. 2 ein Blockdiagramm einer Spracherkennungseinrich
tung, bei welcher die in Fig. 1 dargestellte Ein
richtung zum Beseitigen von Geräuschen verwendet
ist;
Fig. 3 einen Graphen, welcher die Beziehung zwischen
geräusche-beseitigenden Veränderlichen k(f) und
d(f), einer Merkmalsmenge X(f) einer Geräusche
enthaltenden Sprache und einer Merkmalsmenge N(f)
des in der Sprache enthaltenen Geräusches wieder
gibt;
Fig. 4 ein Flußdiagramm eines Prozesses, welcher mittels
eines Sprachabschnitt-Detektors und eines geräusche-
beseitigenden Blocks durchgeführt wird und welcher
für eine Abfrage durchgeführt wird;
Fig. 5 ein Blockdiagramm einer Hardware-Struktur der in
Fig. 1 oder 2 dargestellten geräusche-beseitigenden
Einrichtung, und
Fig. 6 ein Blockdiagramm eines in Fig. 1 oder 5 darge
stellten Merkmalextrahierblockes.
Anhand von Fig. 1 wird zuerst eine Einrichtung zum Beseiti
gen von Geräuschen gemäß einer ersten bevorzugten Ausführungs
form der Erfindung beschrieben. Ein Mikrophon-Verstärker 11
verstärkt ein Signal (ein primäres Eingangssignal), welches
von einem Mikrophon abgegeben wird, an welchem eine Hinter
grundgeräusche enthaltende Sprache aufgenommen wird. Ein
Vorverzerrer 12 erhält das primäre Eingangssignal von dem
Mikrophon-Verstärker 11 und hebt eine hochfrequente Kompo
nente mit einer geringen Energie an. Eine Bandpaßfilter-
Bank 13 ist aus 15 Bandfpaßfiltern gebildet, welche jeweils
15 Kanälen entsprechen, welche durch Aufteilen eines Sprach
bereichs in 15 Bändern festgelegt sind. Ferner enthält die
Bandpaßfilter-Bank 13 einen Gleichrichter und ein Tiefpaßfilter,
das für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi
tal-(A/D-)Umsetzer 14 multiplext die Ausgangssignale
auf den 15 Kanälen von der Bandpaßfilter-Bank 13 und er
zeugt ein Multiplex-Signal. Ferner fragt der A/D-Umsetzer
14 das Multiplex-Signal jeweils alle 10 ms ab. Ein erster
Merkmalextrahierblock 10 besteht aus dem Mikrophonverstär
ker 11, dem Vorverzerrer 12, der Bandpaßfilter-Bank 13 und
dem A/D-Umsetzer 14 und extrahiert ein Leistungsspektrum
X(f) einer ein Geräusch enthaltenden Sprache. Der Buchstabe
"f" stellt Zahlen dar, welche einzeln den 15 Kanälen zu
geordnet sind.
Ein Mikrophonverstärker 21 verstärkt ein Signal (ein Bezugs
eingangssignal), welches von einem Mikrophon abgegeben wird,
an welchem das Hintergrundgeräusch aufgenommen wird. Ein
Vorverzerrer 22 erhält das Bezugseingangssignal von dem Mi
krophonverstärker 21 und hebt eine hochfrequente Komponente
mit einer geringen Energie an. Eine Bandpaßfilter-Bank 23
ist aus 15 Bandpaßfiltern gebildet, welche jeweils 15 Kanälen
entsprechen, welche durch Aufteilen eines Sprachbereichs in
15 Bändern festgelegt sind. Ferner enthält die Bandpaßfil
ter-Bank 23 einen Gleichrichter und ein Tießpaßfilter, das
für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi
tal-(A/D-)Umsetzer 24 multiplext die Ausgangssignale an den 15
Kanälen von der Bandpaßfilter-Bank 23 und erzeugt ein Multi
plex-Signal. Ferner fragt der A/D-Umsetzer 24 das Multiplex-
Signal jeweils alle 10 ms ab. Ein zweiter Merkmalextrahier
block 20 ist aus dem Mikrophonverstärker 21, dem Vorver
zerrer 22, der Bandpaßfilter-Bank 23 und dem A/D-Umsetzer
24 gebildet und extrahiert ein Leistungsspektrum N(f), des
in der Sprache enthaltenen Geräusches. Der Buchstabe "f"
stellt wieder Zahlen dar, welche einzeln den 15 Kanälen zu
geordnet sind.
Ein Sprachabschnitt-Detektor 31 erhält zeit-serielle Lei
stungsspektren X(f) und N(f), d.h. Zeit-Spektralmuster,
welche von den ersten bzw. zweiten Merkmalextrahierblöcken
10 und 20 abgegeben werden. Dann stellt der Sprachabschnitt-
Detektor 31 einen Sprachabschnitt für jedes der Frequenzbän
der (15 Kanäle) durch die folgenden zwei Schritte fest. Bei
dem ersten Schritt wird bestimmt, ob ein Sprachabschnitt
(ein Abschnitt auf der Zeitachse, in welchem eine Sprache
vorhanden ist) für jedes der Frequenzbänder existiert oder
nicht. Beim zweiten Schritt wird ein Sprachabschnitt auf der Fre
quenzachse aus dem festgestellten Sprachabschnitt auf der
Zeitachse abgeleitet.
Der Sprachabschnitt ist folgendermaßen definiert:
wobei Tha ein vorherbestimmter Schwellenwert ist. In einem
Fall, bei welchem zu der Zeit, wenn ein vorstehend festge
legter Sprachabschnitt erhalten wird, ein Wert, welcher
durch die folgende Formel aus einem Leistungsspektrum X(f)
der Geräusche enthaltenden Sprache für jeden zu diesem Zeit
punkt erhaltenen Kanal, aus einem Leistungsspektrum N(f)
des Geräusches und aus den zwei geräusche-beseitigenden Ver
änderlichen k(f) und d(f), welche in einem Geräusche-Beseiti
gungsblock 32 gespeichert sind (welcher nachstehend noch im
einzelnen beschrieben wird) abgeleitet worden ist, größer
oder gleich als ein vorherbestimmter Schwellenwert Th(f) ist,
welcher für jeden Kanal festgelegt ist:
X(f)-k(f) · N(f)-d(f) Th(f) (2)
ein Kanal oder Kanäle f, welche der vorstehenden Formel (2)
genügen, als ein Sprachband oder -Bänder festgelegt werden,
und der restliche Kanal oder Kanäle f als ein Nicht-Sprach
band oder -bänder festgelegt werden.
Der Geräusche-Beseitigungsblock 32 weist geräusche-beseiti
gende Veränderliche k(f) und d(f) (f=1, 2, . . ., 15) auf,
welche für jeden der 15 Kanäle vorgesehen sind. Wenn der
Sprachabschnitt-Detektor 31 einen Nicht-Sprachabschnitt
auf einem Kanal unterscheidet, werden die geräusche-beseiti
genden Veränderlichen k(f) und d(f) durch die folgende For
mel aus einem Leistungsspektrum Xn(f) von Geräusche enthal
tender Sprache, die auf dem vorstehend angegebenen Kanal zu
diesem Zeitpunkt erhalten worden ist, und aus einem Geräusch
spektrum Nn(f) des Geräusches festgestellt, so daß
der Veränderlichen erneuert werden:
k(f)=((Xn(f)²-C²)/Nn(f)²)1/2
für Xn(f)<C (3)
für Xn(f)<C (3)
k(f)=0 für Xn(f) C (4)
d(f)=Xn(f)-k(f) · Nn(f) (5)
wobei das Suffix "n" einen Nicht-Sprachabschnitt bezeichnet
und C größer als null ist (C<0). Andernfalls können Lei
stungsspektren Xn(f) und Nn(f) durch Mittelwerte von mehre
ren Abfragewerten dargestellt werden, welche sich auf einen
Nicht-Sprachabschnitt beziehen. Ein Leistungsspektrum Sn(f)
einer Sprache, in der Geräusche beseitigt sind, das zu die
sem Zeitpunkt festgelegt worden ist, ist so, daß gilt:
Sn(f) = 0.
Wenn andererseits der Sprachabschnitt-Detektor 31 einen
Sprachabschnitt auf einem Kanal feststellt, wird ein Lei
stungsspektrum Ss(f) einer Sprache, in der Geräusche besei
tigt sind, nach der folgenden Formel aus einem Leistungsspek
trum Xs(f) einer Geräusche enthaltenden Sprache auf dem vor
stehenden Kanal, aus einem Leistungsspektrum Ns(f) des Ge
räusches und der geräusche-beseitigenden Veränderlichen k(f)
und d(f) berechnet:
Ss(t, f)=Xs(f)-k(f) · Ns(f)-d(f) (6)
wobei das Suffix "s" einen Sprachabschnitt bezeichnet.
Fig. 4 ist ein Flußdiagramm eines Prozesses, welcher von dem
Sprachabschnitt-Detektor 31 und von dem Geräusche-Beseiti
gungsblock 32 durchgeführt wird und welcher für eine Abfra
gezeit durchgeführt wird. Da derselbe Berechnungsalgorithmus
in dem Sprachabschnitt-Detektor 31 und dem Geräusche-Beseiti
gungsblock 32 verwendet wird, werden deren Prozesse zusammen
durchgeführt.
In Fig. 4 werden beim Schritt 100 X(f) und N(f) eingegeben.
Beim Schritt 101 werden
berechnet. Beim Schritt 102 wird f gleich 1 gesetzt. Beim
Schritt 103 wird festgestellt, ob ΣX(f)-ΣN(f) Tha ist
oder nicht. Wenn das beim Schritt 103 erhaltene Ergebnis ja
ist, wird ein Leistungsspektrum S(f) beim Schritt 104 durch
die Formel (2) oder (6) berechnet. Beim Schritt 105 wird be
stimmt, ob S(f) Th(f) ist oder nicht. Wenn das Ergebnis
beim Schritt 105 nein ist, oder wenn das Ergebnis beim Schritt
103 nein ist, wird bei einem Schritt 106 fortgefahren, bei
welchem 0 in S(f) geschrieben wird. Beim Schritt 107 werden
die vorerwähnten Formeln (3), (4) und (5) berechnet. Dann wird
auf den Schritt 108 übergegangen, welcher ebenfalls durchge
führt wird, wenn das beim Schritt 105 erhaltene Ergebnis ja
ist. Beim Schritt 108 wird f+1 anstelle von f geschrieben,
d.h. f wird um +1 inkrementiert. Beim Schritt 109 wird be
stimmt, ob f größer als 15 ist oder nicht. Wenn das Ergebnis
beim Schritt 109 nein ist, wird auf den Schritt 103 zurückge
gangen. Wenn dagegen das beim Schritt 109 erhaltene Ergebnis
ja ist, wird auf den Schritt 110 vorgerückt, bei welchem ein
Rahmendatenwert S(f) abgegeben wird. Die Berechnung, welche
auf den Formel (3) bis (6) beruht, wird mit hohen Geschwin
digkeiten durchgeführt, welche mit Hilfe einer logarithmischen
und einer exponentiellen Tabelle erreicht worden sind.
Die Beziehung zwischen Xn(f), Nn(f) und k(f) kann durch die
Gleichung von Xn(f) 2-k(f) 2×Nn(f) 2=C 2 dargestellt wer
den. Ein Graph, welcher dieser Gleichung entspricht, ist in
Fig. 3 dargestellt. Der der Gleichung entsprechende Graph
weist einen Teil einer Hyperbel auf. Wie aus dem Graphen der
Fig. 3 ersehen werden kann, werden, wenn ein Hintergrundge
räusch einen beachtlichen hohen Pegel hat, d.h. wenn
Xn(f), Nn(f)»C ist, die folgenden Gleichungen erhalten:
k(f)=Xn(f)/Nn(f)
d(f)=0 (7)
d(f)=0 (7)
Genauer gesagt, nähern sich k(f) und d(f) Xn/Nn(f) bzw.
0. Zu diesem Zeitpunkt lautet die Gl. (6) folgendermaßen:
Ss(f)=Xs(f)-k(f) · Ns(f) (8)
Gl. (8) paßt zu dem vorerwähnten, adaptiven Geräuschunter
drückungsverfahren. Im Gegensatz hierzu genügen, wenn das
Hintergrundgeräusch auf einem niedrigen Pegel liegt, d.h.
wenn Xn C genügt ist, den folgenden Gleichungen
k(f)=0
d(f)=Xn(f) (9)
d(f)=Xn(f) (9)
Folglich kann die vorerwähnte Gl. (6) folgendermaßen ge
schrieben werden:
Ss(f)=Xs(f)-d(f)=Xs(f)-Xn(f) (10)
Gl. (10) paßt zu dem vorerwähnten spektralen Subtraktionsver
fahren.
Es kann auch ein anderer, einen Sprachabschnitt bestimmender
Prozeß verwendet werden, welcher in dem Sprachabschnitt-
Detektor 31 durchzuführen ist. In einem alternativen Prozeß
werden die Werte von ΣX(f) und ΣN(f) statt mittels der
Bandfilter 13 und 23 mittels eines Filters erhalten, welcher
Signalkomponenten in allen 15 Kanälen durchläßt. Es ist auch
möglich, den Wert von ΣN(f) mit einem Koeffizienten zu mul
tiplizieren. Auch können die Schwellenwerte Tha und Th(f)
entsprechend dem Pegel eines Hintergrundgeräusches geändert
werden.
In der vorerwähnten Ausführungsform gemäß der Erfindung
werden die Werte der geräusche-beseitigenden Veränderlichen
k(f) und d(f) so, wie sie in dem Sprachband während des
Sprachabschnitts sind, mit Hilfe der Operationsergebnisse
von dem Sprachabschnitt-Detektor 21 und dem Geräusche-Be
seitigungsblock 32 erhalten. Andernfalls können die
geräusche-beseitigenden Veränderlichen k(f) und d(f) erneu
ert werden, wenn ein Verfahren angewendet wird, welches
darauf gerichtet ist, eine plötzliche Änderung zu verhin
dern, welche größer als vorherbestimmte Werte der geräusche-
beseitigenden Veränderlichen ist. Bei dieser Alternative
können dann die geräusche-beseitigenden Veränderlichen k(f)
und d(f) sogar in dem Sprachabschnitt erneuert werden. Die
Tatsache, daß die Phasendifferenz zwischen den Blöcken 10
und 20 (Fig. 1) in der Ausführungsform nicht ausgeglichen
wird, ist der Grund dafür, daß Geräuschkomponenten auf der
Frequenzbasis beseitigt werden und das Abfragen jeweils alle
10 ms durchgeführt wird, und daß die Phasendifferenz daher
vernachlässigbar ist. Natürlich kann zusätzlich auch ein
herkömmliches Verfahren zum Ausgleichen der Phasendifferenz
angewendet werden.
Die Hyperbel, welche durch die Formel (1) festgelegt ist,
kann durch eine Hyperbel ersetzt werden, welche durch die
folgende Formel (1) festgelegt ist:
k(f)=((Xn(f)²-C₁²)/(Nn(f)²+C₂²))1/2 (1′)
wobei C 1, C 2<0 und Xn(f)<C 1 ist. Eine gekrümmte Linie,
welche einer Hyperbel ähnlich ist, kann hierfür verwendet
werden.
Nunmehr wird anhand von Fig. 2 eine Spracherkennungseinrich
tung beschrieben, bei welcher die vorstehend beschriebene
Einrichtung zum Beseitigen von Geräuschen gemäß der Erfin
dung verwendet ist. In Fig. 2 ist eine Einrichtung 50 zum
Beseitigen von Geräuschen so ausgeführt, wie vorstehend be
schrieben worden ist, und sie erzeugt ein Spektrum S(f)
einer Sprache, in welcher Geräusche beseitigt sind, aus ei
nem Spektrum einer Geräusche enthaltenden Sprache und aus
einem Spektrum der Geräusche. In einem Block 60 wird ein
Eingangsmuster einer Sprache, in welcher Geräusche besei
tigt sind, aus der Merkmalsmenge S(f) der eingegebenen
Sprache erzeugt, welche von der geräusche-beseitigenden Ein
richtung 50 geliefert worden ist. Ein Bezugsmuster-Speicher
70 speichert eine Anzahl Bezugsmuster für eine individuelle
Sprache. Ein Erkennungsblock 80 führt eine Spracherkennungs
prozedur mit Hilfe des Musters, welches von dem ein Muster
erzeugenden Block 60 eingegeben worden ist, und mit Hilfe
der Bezugsmuster durch, welche in dem Bezugsmuster-Speicher
70 registriert sind, und erzeugt als das Erkennungsergebnis
eines der Bezugsmuster, welches den höchsten Ähnlichkeits
grad zu dem eingegebenen Eingangsmuster hat.
Eingangsmuster, welche mittels des Blocks 60 erzeugt worden
sind, und die in dem Speicher 70 registrierten Bezugsmuster
sind binäre Zeit-Spektralmuster (BTSP), wie sie beschrieben
sind in "SPEAKER-INDEPENDENT WORD RECOGNITION USING FUZZY
PATTERN MATCHING", J. Fujimoto et al., Fuzzy Sets and
Systems 32 (1989) Stn. 181-191, North-Holand, oder in
"SPEECH RECOGNITION PROCESSORS USING FUZZY PATTERN MATCHING",
T. Ariyoshi et al., IEEE Custom Integrated Circuits Con
ference 10.6.1 (1988). Der in dem Erkennungsblock 80 durch
geführte Erkennungsprozeß paßt zu einem in den vorstehend an
geführten Unterlagen beschriebenen BTSP-Verfahren. Anderer
seits können Eingangsmuster erzeugt werden und eine Sprach
erkennung auf der Basis einer herkömmlichen DP-Anpassungs
prozedur realisiert werden.
In Fig. 5 ist eine Hardware-Struktur der in Fig. 1 oder 2
dargestellten Einrichtung wiedergegeben. Ein Mikroprozessor-
System weist einen Mikroprozessor 110, einen Steuersignal-
Generator 120, einen Programm-Festwertspeicher (ROM) 130,
einen Daten-Randomspeicher 140 und eine Ein/Ausgabe-Einheit
(I/O) 150 auf. Der Steuersignal-Generator 120 erzeugt ein
Taktsignal, welches an die dargestellten Blöcke zu liefern
ist, ein Adressen-Dekodiersignal, ein Unterbrechungssignal,
(welches für jeweils 10 ms erzeugt wird) usw. Das heißt, der
Steuersignal-Generator 120 erzeugt Signale, welche für her
kömmliche Mikroprozessor-Systeme notwendig sind. Wenn die
dargestellte Anordnung als die geräusche-beseitigende Ein
richtung dient, speichert der Programm-Festwertspeicher 130
Programme, welche die Prozesse durchführen, um nicht nur
Sprachabschnitte in einem eingegebenen Sprachsignal festzu
stellen, Geräusche aus dem eingegebenen Sprachsignal zu be
seitigen, und Eingangsmuster zu erzeugen, sondern auch um
das Interface zwischen der erfindungsgemäßen Einrichtung und
einer externen Einrichtung zu schaffen. Wenn dagegen das be
schriebene System als die Spracherkennungseinrichtung dient,
speichert der Programm-Festwertspeicher (ROM) 130 Programme,
welche die Prozesse durchführen, Sprachabschnitte in einem
ankommenden Sprachsignal feststellen, Geräusche aus dem ein
gegebenen Sprachsignal beseitigen und Eingangsmuster erzeu
gen, eine eingegebene Sprache erkennen und das Interface zwi
schen der erfindungsgemäßen Einrichtung und einer externen
Einrichtung schaffen. Der Daten-Randomspeicher (RAM) 140
speichert dann die Bezugsmuster von Sprache, welche für
eine Spracherkennung verwendet wird. Die Ein-/Ausgabeein
heit 150 behandelt eine Signalverarbeitung, welche auf dem
herkömmlichen RS232C-Interface basiert und führt eine Kommu
nikation mit einer externen Einrichtung durch.
Mikrophone MIC 1 und MIC 2 sind an den ersten bzw. zweiten
Merkmal-Extrahierblöcken 10 und 20 angebracht. Über das Mi
krophon MIC 1 wird eine Sprache mit Geräuschen und über das
Mikrophon MIC 2 werden Hintergrundgeräusche (Bezugseingang)
eingegeben. Jedes der Mikrophone MIC 1 und MIC 2 ist in allen
Richtungen in gleicher Weise empfindlich.
Der erste Merkmalextrahierblock 10 hat denselben Aufbau, wie
der zweite Merkmalsextrahierblock 20, und ist, wie in Fig. 6
dargestellt, aus herkömmlichen Bauelementen aufgebaut. Der
Mikrophonverstärker verstärkt ein Sprachsignal von dem Mi
krophon MIC 1 oder MIC 2. Die Verstärkung des Mikrophon-Ver
stärkers 11 ist im Hinblick auf die Empfindlichkeit des
zu verwendenden Mikrophons entsprechend gewählt. Der Vorver
zerrer 12 hebt Signalkomponenten mit Frequenzen, welche hö
her als 1,6 kHz sind, um 6 dB/oct. an. Das Bandfilter 16
besteht aus einer Filterbank für 15 Kanäle, welche aus
Bandpaßfiltern (BPF) 13-1, bis 13-15, aus Vollwegleichrich
tern (RECT) 13-b 1 bis 13-b 15 und Tiefpaßfiltern (LPF) 13-c 1
bis 13-c 15 gebildet ist. Die Kenndaten der Bandpaßfilter
(BPF) 13-a 1 bis 13-a 15 sind so gewählt, daß Q = 6 ist, und
deren Mittenfrequenzen folgende Frequenzen sind:
f 01 = 250, f 02 = 315, f 03 = 397, f 04 = 500, f 05 = 630,
f 06 = 794, f 07 = 1000, f 08 = 1260, f 09 = 1590, f 10 = 2000,
f 11 = 2520, f 12 = 3180, f 13 = 4000, f 14 = 5040 und f 15
= 6350.
Der A/D-Umsetzer 14 weist einen Multiplexer 14-a, eine
Abfrage- und Halteschaltung 14-b und einen A/D-Umsetzer
14-c auf. Entsprechend einem diesbezüglichen Befehl von
dem Mikroprozessor 110 (Fig. 5) werden die Ausgangssignale
auf den 15 Kanälen von der Bandpaßfilter-Bank 13 aus dem
Multiplexer 14-a zugeführt, welcher daraus ein digitales
12 Bit-Signal ableitet.
Gemäß den vorstehend beschriebenen Ausführungsformen der
Erfindung wird das Spektrum S(f) einer Sprache, in welcher
Geräusche beseitigt sind, mittels der Formel (6) mit Hilfe
der durch die Formeln (3) bis (5) dargestellten, geräusche-
beseitigenden Veränderlichen k(f) und d(f) aus dem Leistungs
spektrum X(f) einer Geräusche enthaltenden Sprache und dem
Spektrum N(f) des Geräusches bzw. der Geräusche erhalten.
Wenn der Pegel von Hintergrundgeräuschen niedrig ist, wer
den mittels der geräusche-beseitigenden Veränderlichen d(f)
wirksam Geräuschkomponenten beseitigt. Wenn dagegen der Pe
gel von Hintergrundgeräuschen hoch ist, werden mittels der
geräusche-beseitigenden Veränderlichen k(f) wirksam Ge
räuschkomponenten beseitigt. Wenn die Hintergrundgeräusche-
einen mittleren Pegel haben, übernehmen beide geräusche
beseitigenden Veränderlichen k(f) und d(f) die Rolle, das
Geräusch bzw. die Geräusche zu beseitigen. Folglich ist es
möglich, wirksam Geräusche mit einem weiten Pegelbereich
und dynamische Hintergrundgeräusche zu beseitigen. Es sollte
jedoch beachtet werden, daß der Algorithmus der Erfindung
eine geringe Anzahl von Bestimmungsschritten aufweist, so
daß eine geringe Programmierung erforderlich ist, und die
Betriebsgeschwindigkeit sehr hoch ist.
Gemäß der Erfindung wird die Sprachabschnitt-Bestimmungspro
zedur für jedes Band durchgeführt. Wenn ein Sprachabschnitt
für ein Band festgestellt wird, werden die geräusche-besei
tigenden Veränderlichen k(f) und d(f) bezüglich dieses Ban
des erneuert. Folglich kann sogar während eines Sprachab
schnitts oder genauer gesagt während einer Zeit, während
welcher keine Sprachkomponente in einem bestimmten Band vor
handen ist und eine Sprachkomponente in einem anderen Band
vorhanden ist, ein Wert der Geräuschkomponente in einem
Band vorhergesagt werden, in welchem es keine Sprachkompo
nente gibt. Bei dieser Anordnung können somit wirksam dy
namische Geräusche beseitigt werden.
Die Spracherkennungseinrichtung gemäß der Erfindung ent
hält die vorstehend beschriebene Einrichtung zum Beseiti
gen von Geräuschen. Folglich kann Sprache erkannt werden,
welche in einer Umgebung ausgesprochen worden ist, in wel
cher Hintergrundgeräusche Komponenten haben, welche einen
sehr großen Bereich abdecken, oder dynamische Hintergrund
geräusche vorliegen. Ferner kann die Geräusche-Beseitigungs
prozedur mittels eines sehr geringen Programmieraufwands
realisiert werden und mit hohen Geschwindigkeiten durchge
führt werden. Folglich kann eine einzige Zentraleinheit
(CPU) sowohl mit der Geräusch-Beseitigungssteuerung als
auch mit der Spracherkennungssteuerung geschaffen werden.
In herkömmlicher Weise werden zwei gesonderte Zentraleinhei
ten (CPU) für die Beseitigung von Geräuschen sowie für die
Spracherkennung verwendet. Bei der Erfindung ist somit die
Hardware verkleinert.
Claims (10)
1. Einrichtung zum Beseitigen von Geräuschen, mit einer
ersten Merkmalextrahiereinrichtung (10), um individuell
eine Merkmalsmenge X(f) ( mit f = 1, 2, . . . n) einer ankommen
den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n
eine ganze Zahl ist) zu extrahieren und mit einer zweiten
Merkmalextrahiereinrichtung (20), um individuell eine Merk
malsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren,
gekennzeichnet durch eine geräusch-beseitigen
de Einrichtung (32), welche mit den ersten und zweiten Merk
malextrahier-Einrichtungen (10, 20) verbunden ist, um eine
erste geräusch-beseitigende Veränderliche k(f) und eine
zweite geräusch-beseitigende Veränderliche d(f) aus der Merk
malsmenge X(f) der ankommenden, Geräusche enthaltenden
Sprache für jeden der n-Kanäle und aus der Merkmalsmenge
N(f) der Geräusche für jeden der n-Kanäle abzuleiten und
um eine Merkmalsmenge S(f) einer Sprache, in welcher Ge
räusche beseitigt sind, entsprechend der folgenden Formel
zu erzeugen:
S (f) = X(f)-k(f) · N(f)-d(f).
2. Einrichtung nach Anspruch 1, dadurch gekenn
zeichnet, daß der Wert f n Frequenzbändern auf einer
Frequenzachse entspricht.
3. Einrichtung nach den Ansprüchen 1 und 2, gekenn
zeichnet durch
eine Feststelleinrichtung (31), um einen Sprach
abschnitt, in welchem eine Sprachkomponente der ankommen
den Sprache vorhanden ist, und einen Nicht-Sprachabschnitt
durch Bezugnahme auf die Merkmalsmenge X(f) der ankommen
den Sprache, welche Geräusche enthält, und unter Bezugnahme
auf die Merkmalsmenge N(f) der Geräusche festzustellen, wo
bei die geräusche-beseitigende Einrichtung (32) die erste
geräusche-beseitigende Veränderliche k(f) und die zweite
geräusche-beseitigende Veränderliche d(f) aus der Merkmals
menge X(f), welche die ankommende Sprache enthält, die eine
erste Geräuschkomponente in dem Nicht-Sprachenabschnitt ent
hält, und aus der Merkmalsmenge N(f) der ersten Rauschkom
ponente ableitet und die Merkmalsmenge S(f) der ankommenden
Sprache, die von Geräuschen beseitigt ist, aus der Merk
malsmenge X(f) der ankommenden Sprache, welche eine zweite
Geräuschkomponente in dem Sprachabschnitt enthält, und aus
der Merkmalsmenge N(f) der zweiten Geräuschkomponente ent
sprechend der Formel erzeugt.
4. Einrichtung nach Anspruch 1, dadurch gekenn
zeichnet, daß die erste geräusche-beseitigende Ver
änderliche k(f), die zweite geräusche-beseitigende Verän
derliche d(f), die Merkmalsmenge X(f) der ankommenden, die
Geräusche enthaltenden Sprache und die Merkmalsmenge N(f)
der Geräusche eine Beziehung haben, in welcher die erste
geräusche-beseitigende Veränderliche k(f) null oder sehr
viel kleiner als 1 ist, wenn eine der Merkmalsmengen X(f)
und N(f) kleiner als eine vorherbestimmte Konstante ist,
und die zweite geräusche-beseitigende Veränderliche d(f)
null oder sehr viel kleiner als die Merkmalsmenge X(f),
welche Geräusche enthält, welche zu dieser Zeit in der an
kommenden Sprache enthalten sind, oder als die Merkmalsmenge
N(f) der zu dieser Zeit enthaltenen Geräusche ist.
5. Einrichtung zum Beseitigen von Geräuschen, mit einer
ersten Merkmalextrahiereinrichtung (10), um individuell
eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) einer ankom
menden, Geräusche enthaltenden Sprache für n-Kanäle (wobei
n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle
in m Gruppen (2m n) unterteilt sind, und mit einer zwei
ten Merkmalextrahiereinrichtung (20), um individuell eine
Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu ex
trahieren, gekennzeichnet durch
eine Sprachabschnitt-Fühleinrichtung (31), welche mit dem
ersten und zweiten Merkmal-Extrahiereinrichtungen verbunden
ist, um für jede der m Gruppen einen Sprachabschnitt fest
zustellen, in welchem eine Sprachkomponente der ankommenden
Sprache durch Bezugnahme auf die Merkmalsmenge X(f) der
ankommenden Sprache, welche eine Geräuschkomponente enthält,
die in einer entsprechenden der m Gruppen enthalten ist,
und durch Bezugnahme auf die Merkmalsmenge N(f) der Geräusch
komponente vorhanden ist, und
durch eine geräusche-beseitigende Einrichtung (32), welche
mit der ersten Merkmalextrahiereinrichtung (10), mit der zwei
ten Merkmalextrahiereinrichtung (20) und der Sprachabschnitt-
Fühleinrichtung (31) verbunden ist, um eine Merkmalsmenge
S(f) einer ankommenden Sprache, in welcher Geräusche besei
tigt sind, aus der Merkmalsmenge X(f) der ankommenden Spra
che, welche die Geräuschkomponente in dem Sprachabschnitt
enthält, und aus der Merkmalsmenge N(f) der Geräuschkompo
nente herzuleiten.
6. Spracherkennungseinrichtung mit einer Einrichtung (50)
zum Beseitigen von Geräuschen, um Geräusche, welche in ei
ner ankommenden Sprache enthalten sind, zu beseitigen und um
eine Sprache, in welcher Geräusche beseitigt sind, abzuge
ben, mit einer Eingangsmuster erzeugenden Einrichtung (60),
welche mit der Einrichtung zum Beseitigen von Geräuschen
verbunden ist, um ein Eingangsmuster der ankommenden Sprache
aus der Sprache, in welcher Geräusche beseitigt sind, zu er
zeugen, mit einer Bezugsmuster-Speichereinrichtung (70) zum
Speichern von Bezugsmustern, und mit einer Spracherkennungs
einrichtung (80), welche mit der Eingangsmuster erzeugenden
Einrichtung (60) und der Bezugsmuster-Speichereinrichtung
(70) verbunden ist, um das Eingangsmuster von der Eingangs
muster erzeugenden Einrichtung mit den Bezugsmustern zu ver
gleichen, und um eines der Bezugsmuster abzugeben, welches
den höchsten Ähnlichkeitsgrad mit dem Eingangsmuster hat,
dadurch gekennzeichnet, daß die Einrichtung (50)
zum Beseitigen von Geräuschen aufweist
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommen den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, und
eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 20) verbunden ist, um eine erste geräusche-beseitigende Verän derliche k(f) und eine zweite geräusche-beseitigende Verän derliche d(f) aus der Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n- Kanäle herzuleiten, und um eine Merkmalsmenge X(f) einer ankommenden Sprache, in welcher Geräusche beseitigt sind, entsprechend der nachstehenden Formel zu erzeugen: S(f) = X(f)-k(f)×N(f)-d(f).
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommen den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, und
eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 20) verbunden ist, um eine erste geräusche-beseitigende Verän derliche k(f) und eine zweite geräusche-beseitigende Verän derliche d(f) aus der Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n- Kanäle herzuleiten, und um eine Merkmalsmenge X(f) einer ankommenden Sprache, in welcher Geräusche beseitigt sind, entsprechend der nachstehenden Formel zu erzeugen: S(f) = X(f)-k(f)×N(f)-d(f).
7. Spracherkennungseinrichtung nach Anspruch 6, dadurch
gekennzeichnet, daß die Größe f n Frequenz
bändern auf einer Frequenzachse entspricht.
8. Spracherkennungseinrichtung nach Anspruch 7, dadurch
gekennzeichnet, daß die Spracherkennungsein
richtung eine Sprachabschnitt-Fühleinrichtung (31) aufweist,
um einen Sprachabschnitt, in welchem eine Sprachkomponente
der ankommenden Sprache vorhanden ist, und um einen Nicht-
Sprachabschnitt unter Bezugnahme auf die Merkmalsmenge X(f)
der ankommenden, Geräusche enthaltenden Sprache und unter
Bezugnahme auf die Merkmalsmenge N(f) der Geräusche festzu
stellen, und daß
die geräusche-beseitigende Einrichtung (32) die erste
geräusche-beseitigende Veränderliche k(f) und die zweite
geräusche-beseitigende Veränderliche d(f) aus der Merkmals
menge X(f), welche die ankommende Sprache enthält, welche
eine erste Geräuschkomponente in dem Nicht-Spracheabschnitt
enthält, und aus der Merkmalsmenge N(f) der ersten Geräusch
komponente ableitet und die Merkmalsmenge S(f) der ankommen
den Sprache, in welcher Geräusche beseitigt sind, aus der
Merkmalsmenge X(f) der ankommenden Sprache, welche eine
zweite Geräuschkomponente in dem Sprachabschnitt enthält,
und aus der Merkmalsmenge N(f) der zweiten Geräuschkompo
nente entsprechend der Formel erzeugt.
9. Spracherkennungseinrichtung nach Anspruch 6, dadurch
gekennzeichnet, daß die erste geräusche-be
seitigende Veränderliche k(f), die zweite geräusche-besei
tigende Veränderliche d(f), die Merkmalsmenge X(f) der an
kommenden, Geräusche enthaltenden Sprache und die Merkmals
menge N(f) der Geräusche eine Beziehung haben, in welcher
die erste geräusche-beseitigende Veränderliche k(f) null
oder sehr viel kleiner als 1 ist, wenn eine der Merkmals
mengen X(f) und N(f) kleiner als eine vorherbestimmte Kon
stante ist, und die zweite geräusche-beseitigende Veränder
liche d(f) null oder sehr viel kleiner als die Merkmalsmenge
X(f), welche Geräusche enthält, die in der ankommenden Spra
che zu diesem Zeitpunkt enthalten sind, oder als die Merk
malsmenge N(f) der zu diesem Zeitpunkt erhaltenen Geräusche
ist.
10. Spracherkennungseinrichtung, mit einer Einrichtung (50)
zum Beseitigen von Geräuschen, um Geräusche, die in einer
ankommenden Sprache enthalten sind, daraus zu entfernen und
eine Sprache, in welcher Geräusche beseitigt sind, abzugeben,
mit einer Eingangsmuster erzeugenden Einrichtung (60), wel
che mit der Einrichtung zum Beseitigen von Geräuschen ver
bunden ist, um ein Eingangsmuster der ankommenden Sprache
aus der Sprache, in welcher die Geräuse beseitigt sind, zu
erzeugen, mit einer Bezugsmuster-Speichereinrichtung (70)
zum Speichern von Bezugsmustern, und mit einer Spracherken
nungseinrichtung (80), welche mit der Eingangsmuster erzeu
genden Einrichtung und der Bezugsmuster-Speichereinrichtung
verbunden ist, um die Eingangsmuster von der Eingangsmuster
erzeugenden Einrichtung mit den Bezugsmustern zu vergleichen
und um eines der Bezugsmuster abzugeben, welches den höch
sten Ähnlichkeitsgrad mit dem Eingangsmuster hat, dadurch
gekennzeichnet, daß die Einrichtung (50) zum
Beseitigen von Geräuschen aufweist:
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommenden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m- Gruppen (mit 2 m n) unterteilt sind;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren;
eine Sprachabschnitt-Fühleinrichtung (31), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) verbunden ist, um für jede der m-Gruppen einen Sprachab schnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, durch Bezugnahme auf die Merkmals menge X(f) der ankommenden Sprache, welche eine Geräusch komponente enthält, welche in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmal smenge N(f) der Geräuschkomponente festzustellen, und eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) und der Sprachabschnitt-Fühleinrichtung (31) verbunden ist, um eine Merkmalsgröße S(f) einer ankommenden Sprache, in wel cher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkomponente abzuleiten.
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommenden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m- Gruppen (mit 2 m n) unterteilt sind;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren;
eine Sprachabschnitt-Fühleinrichtung (31), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) verbunden ist, um für jede der m-Gruppen einen Sprachab schnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, durch Bezugnahme auf die Merkmals menge X(f) der ankommenden Sprache, welche eine Geräusch komponente enthält, welche in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmal smenge N(f) der Geräuschkomponente festzustellen, und eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) und der Sprachabschnitt-Fühleinrichtung (31) verbunden ist, um eine Merkmalsgröße S(f) einer ankommenden Sprache, in wel cher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkomponente abzuleiten.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1101141A JP2859634B2 (ja) | 1989-04-19 | 1989-04-19 | 雑音除去装置 |
JP1261099A JP2863214B2 (ja) | 1989-10-05 | 1989-10-05 | 雑音除去装置及び該装置を用いた音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4012349A1 true DE4012349A1 (de) | 1990-10-25 |
DE4012349C2 DE4012349C2 (de) | 1993-08-26 |
Family
ID=26442058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19904012349 Granted DE4012349A1 (de) | 1989-04-19 | 1990-04-18 | Einrichtung zum beseitigen von geraeuschen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4012349A1 (de) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0522213A1 (de) * | 1989-12-06 | 1993-01-13 | National Research Council Of Canada | Einrichtung zum Trennen der Sprache aus dem Hintergrundgeräusch |
FR2681715A1 (fr) * | 1991-09-25 | 1993-03-26 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
DE4307688A1 (de) * | 1993-03-11 | 1994-09-15 | Daimler Benz Ag | Verfahren zur Geräuschreduktion für gestörte Sprachkanäle |
US5400409A (en) * | 1992-12-23 | 1995-03-21 | Daimler-Benz Ag | Noise-reduction method for noise-affected voice channels |
WO1997010586A1 (en) * | 1995-09-14 | 1997-03-20 | Ericsson Inc. | System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions |
FR2768544A1 (fr) * | 1997-09-18 | 1999-03-19 | Matra Communication | Procede de detection d'activite vocale |
CN113259801A (zh) * | 2021-05-08 | 2021-08-13 | 深圳市睿耳电子有限公司 | 一种智能耳机的喇叭降噪方法和相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1512758C1 (de) * | 1967-02-14 | 1977-09-15 | Sennheiser Electronic | Vocoder fuer hohe Stoerlautstaerken |
DE3642591C2 (de) * | 1985-12-20 | 1989-03-02 | Bayerische Motoren Werke Ag, 8000 Muenchen, De |
-
1990
- 1990-04-18 DE DE19904012349 patent/DE4012349A1/de active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1512758C1 (de) * | 1967-02-14 | 1977-09-15 | Sennheiser Electronic | Vocoder fuer hohe Stoerlautstaerken |
DE3642591C2 (de) * | 1985-12-20 | 1989-03-02 | Bayerische Motoren Werke Ag, 8000 Muenchen, De |
Non-Patent Citations (4)
Title |
---|
"ADAPTIVE NOISE CANCELLING: PRINCIPLES AND APPLICATION", B. Widraw et al., Proc. IEEE Vol. 63Nr. 12, Stn. 1692 -1716, 1975 * |
"SPEAKER-INDEPENDENT WORD RECOGNITION USING FUZZY PATTERN MATCHING", J. Fujimoto et al., Fuzzy Sets and Systems 32(1989) Stn. 181-191, North Holland * |
"SPEECH RECOGNITION PROCESSORS USING FUZZY PATTERNMATCHING", T. Ariyoshi et al., IEEE Custom Integrated Circuits Conference 10.6.1 (1988) * |
"SUPPRESSION OF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION", S.F. Boll, IEEE Trans. ASSP-27, Nr. 2, Stn. 113-120, 1979 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0522213A1 (de) * | 1989-12-06 | 1993-01-13 | National Research Council Of Canada | Einrichtung zum Trennen der Sprache aus dem Hintergrundgeräusch |
US5319736A (en) * | 1989-12-06 | 1994-06-07 | National Research Council Of Canada | System for separating speech from background noise |
FR2681715A1 (fr) * | 1991-09-25 | 1993-03-26 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
EP0534837A1 (de) * | 1991-09-25 | 1993-03-31 | MATRA COMMUNICATION Société Anonyme | Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung einer nicht linearen spektralen Subtraktionsverfahren und Hidden-Markov-Modellen |
US5400409A (en) * | 1992-12-23 | 1995-03-21 | Daimler-Benz Ag | Noise-reduction method for noise-affected voice channels |
DE4307688A1 (de) * | 1993-03-11 | 1994-09-15 | Daimler Benz Ag | Verfahren zur Geräuschreduktion für gestörte Sprachkanäle |
WO1997010586A1 (en) * | 1995-09-14 | 1997-03-20 | Ericsson Inc. | System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions |
FR2768544A1 (fr) * | 1997-09-18 | 1999-03-19 | Matra Communication | Procede de detection d'activite vocale |
WO1999014737A1 (fr) * | 1997-09-18 | 1999-03-25 | Matra Nortel Communications | Procede de detection d'activite vocale |
US6658380B1 (en) | 1997-09-18 | 2003-12-02 | Matra Nortel Communications | Method for detecting speech activity |
CN113259801A (zh) * | 2021-05-08 | 2021-08-13 | 深圳市睿耳电子有限公司 | 一种智能耳机的喇叭降噪方法和相关装置 |
CN113259801B (zh) * | 2021-05-08 | 2023-07-18 | 深圳市睿耳电子有限公司 | 一种智能耳机的喇叭降噪方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
DE4012349C2 (de) | 1993-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112009000805B4 (de) | Rauschreduktion | |
DE69124005T2 (de) | Sprachsignalverarbeitungsvorrichtung | |
DE69816610T2 (de) | Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten | |
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
DE69105760T2 (de) | Einrichtung zur Signalverarbeitung. | |
DE69720087T2 (de) | Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners | |
EP0912974B1 (de) | Verfahren zur verringerung von störungen eines sprachsignals | |
DE112012006876B4 (de) | Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung | |
EP1091349B1 (de) | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung | |
DE69738288T2 (de) | Einrichtung zur unterdrückung einer störenden komponente eines eingangssignals | |
DE4126902C2 (de) | Sprachintervall - Feststelleinheit | |
DE3925589C2 (de) | Verfahren und Anordnung zur Störbefreiung von Sprachsignalen | |
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69105154T2 (de) | Sprachsignalverarbeitungsvorrichtung. | |
DE4106405C2 (de) | Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE10020756B4 (de) | Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
EP1189419A2 (de) | Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen | |
DE4012349A1 (de) | Einrichtung zum beseitigen von geraeuschen | |
EP3065417B1 (de) | Verfahren zur unterdrückung eines störgeräusches in einem akustischen system | |
DE60033039T2 (de) | Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen | |
WO2001047335A2 (de) | Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät | |
DE10025655B4 (de) | Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten | |
JP2863214B2 (ja) | 雑音除去装置及び該装置を用いた音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |