DE4012349A1 - Einrichtung zum beseitigen von geraeuschen - Google Patents

Einrichtung zum beseitigen von geraeuschen

Info

Publication number
DE4012349A1
DE4012349A1 DE19904012349 DE4012349A DE4012349A1 DE 4012349 A1 DE4012349 A1 DE 4012349A1 DE 19904012349 DE19904012349 DE 19904012349 DE 4012349 A DE4012349 A DE 4012349A DE 4012349 A1 DE4012349 A1 DE 4012349A1
Authority
DE
Germany
Prior art keywords
noise
speech
feature set
incoming
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19904012349
Other languages
English (en)
Other versions
DE4012349C2 (de
Inventor
Takashi Ariyoshi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP1101141A external-priority patent/JP2859634B2/ja
Priority claimed from JP1261099A external-priority patent/JP2863214B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE4012349A1 publication Critical patent/DE4012349A1/de
Application granted granted Critical
Publication of DE4012349C2 publication Critical patent/DE4012349C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Description

Die Erfindung betrifft eine Einrichtung zum Beseitigen von Geräuschen nach den Oberbegriffen der Ansprüche 1 und 5 und betrifft insbesondere eine geräusche-beseitigende Einrich­ tung, welche Komponenten von Hintergrundgeräuschen, die in einem Sprachsignal enthalten sind, aus einem Spracheingang in eine Spracherkennungseinrichtung entfernt. Ferner ist die Erfindung auf eine Spracherkennungseinrichtung mit ei­ ner derartigen geräusche-beseitigenden Einrichtung gerich­ tet. Die Erfindung ist in Verbindung mit einer Spracherken­ nung in geräuschvoller Umgebung, wie beispielsweise in Fahr­ zeugen, Büros, Wohnungen und Fabriken, anwendbar.
Bei der Spracherkennung wird durch das Vorhandensein von Hintergrundgeräuschen in der ankommenden Sprache die Sprach­ erkennungsrate beträchtlich verschlechtert. Folglich ist das Beseitigen von Hintergrundgeräuschen in ankommender Spra­ che ein ernsthaftes Problem, das zu lösen ist, wenn eine Spracherkennungseinrichtung in der Praxis eingesetzt wer­ den soll. Beispielsweise sollen Spracherkennungstechniken in einem fahrenden Fahrzeug beispielsweise als Tonsteuerung, Navigationssystemsteuerung und Sprachwählsteuerung angewen­ det werden. Es ist schwierig, ein Mikrophon mit einem hohen Signal-Rausch-Verhältnis (S/N-Verhältnis) zu verwenden, wel­ ches in der Nähe des Mundes eines Sprechers angebracht ist, wie beispielsweise ein Nahbesprechungsmikrophon.
Eine Vielzahl von Hintergrundgeräuschen, wie Motorengeräusche, Geräusche von abrollenden Rädern oder aus Radio- oder Stereo­ geräten wiedergegebene Klänge werden zu einer Sprache hinzu­ addiert, welche über das Mikrophon aufgenommen wird. Durch das Vorhandensein von Hintergrundgeräuschen wird das Erken­ nen von aufgenommener Sprache verschlechtert. Von den ver­ schiedenen, vorstehend erwähnten Geräuschen hängen die Geräusche von Motoren und Rädern von der Fahrzeuggeschwin­ digkeit ab und ändern sich stark in Abhängigkeit von der Um­ gebung. Ebenso ändern sich die aus Radio- oder Stereogerä­ ten wiedergegebenen Klänge stark in Abhängigkeit von der Frequenz und deren Amplitudenpegel. Unter diesem Gesichts­ punkt müssen daher geräusche-beseitigende Techniken geschaf­ fen werden, welche unabhängig von der Größe des Hintergrund­ geräusches sind, und mit welchen wirksam Geräuschkomponenten beseitigt und eliminiert werden können, selbst wenn der Fre­ quenzbereich des Geräusches sich ändert.
Es ist ein spektrales Subtraktionsverfahren bekannt, wel­ ches im allgemeinen angewendet wird, um Geräuschkomponen­ ten in einem Spracheingang zu einer Spracherkennungsein­ richtung zu beseitigen, und bei welchem als Sprachmerkmale zeit-spektrale Muster verwendet werden. (Siehe "SUPPRESSION OF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION", S. F. Boll, IEEE Trans. ASSP-27, Nr. 2, Stn. 113-120, 1979).
Bei dem vorgeschlagenen Subtraktionsverfahren wird ein Ein­ gang über einem Abschnitt gemittelt, in welchem keine Spra­ che vorhanden ist, ein gemittelter Eingangswert wird als ein Geräuschspektrum gehalten, und das Geräuschspektrum wird von einem Spektrum einer aufgenommenen Sprache subtrahiert, wel­ che Geräuschkomponenten enthält. Das Subtraktionsergebnis wird als ein endgültiges Sprachspektrum abgegeben. Hierbei ist jedoch zu beachten, daß das vorgeschlagene Verfahren auf der Annahme beruht, das Hintergrundrauschen bezüglich der Zeitbasis stationär ist, wie beispielsweise weißes Rauschen. Folglich ist das vorgeschlagene Verfahren nur wirksam bezüg­ lich stationärer Geräusche, aber weniger wirksam im Hinblick auf dynamische Geräusche. Insbesondere kann, wenn stationäre Geräusche sehr laute Komponenten haben, das vorgeschlagene Verfahren solche Geräuschkomponenten nicht wirksam beseiti­ gen.
Es ist auch ein adaptives, Geräusche unterdrückendes Verfah­ ren bekannt, bei welchem ein Primäreingang und ein Bezugs­ eingang verwendet wird (siehe "ADAPTIVE NOISE CANCELLING: PRINCIPLES AND APPLICATION", B. Widraw et al., Proc, IEEE, Vol. 63, Nr. 12, Stn. 1692 bis 1716, 1975). Ferner ist eine Geräusche-Unterdrückungseinrichtung bekannt, bei welcher das vorstehend angeführte adaptive Geräusche-Unterdrückungs- Verfahren angewendet ist (Siehe die am 25.9.1989 veröffent­ lichte japanische Patentanmeldung Nr. 1-2 39 596, welche der am 14. März 1988 eingereichten US-Patentanmeldung S.N. 1 67 619 entspricht). Ein in der vorerwähnten japanischen Patentanmeldung beschriebenes adaptives Filter entspricht einer Verbesserung des adaptiven Geräusche-Unterdrückungs­ verfahren, welches in der Veröffentlichung von Widraw et al beschrieben ist, in welcher ein Koeffizient, welcher ein Ausgleichen der Amplituden- und Phasendifferenz zwischen den zwei Eingängen betrifft, für jeden der Vielzahl Frequenz­ bereiche vorgesehen ist, so daß Geräuschkomponenten, die von einer Vielzahl Geräuschquellen stammen, unterdrückt werden können. Jedoch haben die adaptiven Geräusche-Unterdrückungs­ verfahren mit zwei Eingängen einen Nachteil, daß es nämlich schwierig ist, infolge der Tatsache, daß die Werte der Ko­ effizienten, welche bestimmt werden, wenn ein Geräusch ge­ ring ist, große Fehler aufweisen, ein Geräusch wirksam zu unterdrücken. Aus diesem Grund eignet sich eine spektrale Subtraktionsmethode mit einem einzigen Eingang für dynami­ sches Geräusch mit einem geringen Pegel eher als die spek­ trale Subtraktionsmethode mit zwei Eingängen.
Bei Abwägen der vorerwähnten Vorteile und Nachteile er­ gibt sich, daß ein gewisser Schwellenwert vorgesehen ist und erst bei einer Geräuschbehandlung und -verarbeitung zwischen den spektralen Subtraktionsverfahren mit einem einzigen Ein­ gang und mit zwei Eingängen umgeschaltet wird, indem der Hintergrundgeräuschpegel mit dem Schwellenwertpegel ver­ glichen wird. Dies hat jedoch die folgenden Nachteile. Erstens zeigen sich, wenn der Hintergrundgeräuschpegel nahe bei dem Schwellenwertpegel liegt, die Nachteile der vorer­ wähnten zwei Verfahren. Zweitens ist es sehr schwierig, die Sprachmuster, in welchen Geräusche beseitigt sind, und wel­ che aus den zwei Verfahren abgeleitet werden, gleichmäßig zu behandeln. Infolge der vorerwähnten beiden Gründe ist die Erkennungsrate in der Nähe von Geräuschpegeln außeror­ dentlich niedrig. Drittens müssen, wenn Geräuschpegel nahe den Schwellenwertpegeln liegen, die beiden Verfahren durch­ geführt werden, wobei dann bei dieser Methode eine größere Datenmengen zu verarbeiten ist.
Darüber hinaus wird im allgemeinen das Einstellen verschiede­ ner Koeffizienten zum Beseitigen von Geräuschelementen nicht nur in herkömmlichen spektralen Subtraktionsverfahren, son­ dern auch in adaptiven Geräuschunterdrückungsverfahren in einem Abschnitt außer einem Sprachabschnitt durchgeführt. Das heißt, die Prozedur zum Erneuern derartiger Koeffizien­ ten wird nicht in einem Sprachabschnitt durchgeführt. Wenn dynamisches Rauschen (dessen Pegel oder Frequenz oder die Position einer Geräuschquelle) sich während des Sprachab­ schnitts ändert, ist es unmöglich, geeignete Werte von Ko­ effizienten auszuwählen und somit Geräuschkomponenten zu be­ seitigen.
Gemäß der Erfindung soll daher eine Einrichtung zum Beseiti­ gen bzw. Eliminieren von Geräuschen geschaffen werden, wel­ che die vorerwähnten Nachteile nicht mehr aufweist. Darüber hinaus soll gemäß der Erfindung eine Einrichtung zum Besei­ tigen von Geräuschen geschaffen werden, bei welchem Hinter­ grundgeräuschkomponenten aus einem Sprachsignal, welches die­ selben enthält, wirksam beseitigt bzw. eliminiert werden können. Darüber hinaus soll gemäß der Erfindung eine Einrich­ tung zum Beseitigen von Geräuschen geschaffen werden, bei welcher wirksam Hintergrundgeräuschkomponenten aus einem Sprachsignal, welches dieselben enthält, ungeachtet der Pegel der Hintergrundgeräusch-Komponenten beseitigt werden können. Darüber hinaus soll gemäß der Erfindung eine Einrich­ tung zum Beseitigen von Geräuschen geschaffen werden, bei welcher Koeffizienten zum Beseitigen von Geräusch so oft wie möglich erneuert werden, so daß in einem Sprachsignal ent­ haltene Hintergrundgeräusche entsprechend einer Geräuschän­ derung wirksam beseitigt werden.
Gemäß der Erfindung ist dies bei einer Einrichtung zum Be­ seitigen von Geräuschen nach den Oberbegriffen der Ansprüche 1 oder 5 durch die Merkmale in deren kennzeichnenden Teil er­ reicht. Vorteilhafte Weiterbildungen der Erfindung sind Ge­ genstand der auf die vorgenannten Ansprüche 1 und 5 unmittel­ bar bzw. mittelbar rückbezogenen Unteransprüche.
Ferner soll gemäß der Erfindung eine Spracherkennungsein­ richtung mit der erfindungsgemäßen Einrichtung zur Beseiti­ gung von Geräuschen geschaffen werden. Gemäß der Erfindung ist eine derartige Spracherkennungseinrichtung nach dem Oberbegriff des Anspruchs 6 durch die Merkmale in dessen kennzeichnenden Teil gelöst. Vorteilhafte Weiterbildungen einer Spracherkennungseinrichtung nach Anspruch 6 sind Ge­ genstand der Unteransprüche 7 bis 9. Eine vorteilhafte Wei­ terbildung einer Spracherkennungseinrichtung ist durch die Merkmale im kennzeichnenden Teil des Anspruchs 10 gekenn­ zeichnet.
Nachfolgend wird die Erfindung anhand von bevorzugten Aus­ führungsbeispielen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Einrichtung zum Beseiti­ gen von Geräuschen gemäß einer ersten bevorzugten Ausführungsform der Erfindung;
Fig. 2 ein Blockdiagramm einer Spracherkennungseinrich­ tung, bei welcher die in Fig. 1 dargestellte Ein­ richtung zum Beseitigen von Geräuschen verwendet ist;
Fig. 3 einen Graphen, welcher die Beziehung zwischen geräusche-beseitigenden Veränderlichen k(f) und d(f), einer Merkmalsmenge X(f) einer Geräusche enthaltenden Sprache und einer Merkmalsmenge N(f) des in der Sprache enthaltenen Geräusches wieder­ gibt;
Fig. 4 ein Flußdiagramm eines Prozesses, welcher mittels eines Sprachabschnitt-Detektors und eines geräusche- beseitigenden Blocks durchgeführt wird und welcher für eine Abfrage durchgeführt wird;
Fig. 5 ein Blockdiagramm einer Hardware-Struktur der in Fig. 1 oder 2 dargestellten geräusche-beseitigenden Einrichtung, und
Fig. 6 ein Blockdiagramm eines in Fig. 1 oder 5 darge­ stellten Merkmalextrahierblockes.
Anhand von Fig. 1 wird zuerst eine Einrichtung zum Beseiti­ gen von Geräuschen gemäß einer ersten bevorzugten Ausführungs­ form der Erfindung beschrieben. Ein Mikrophon-Verstärker 11 verstärkt ein Signal (ein primäres Eingangssignal), welches von einem Mikrophon abgegeben wird, an welchem eine Hinter­ grundgeräusche enthaltende Sprache aufgenommen wird. Ein Vorverzerrer 12 erhält das primäre Eingangssignal von dem Mikrophon-Verstärker 11 und hebt eine hochfrequente Kompo­ nente mit einer geringen Energie an. Eine Bandpaßfilter- Bank 13 ist aus 15 Bandfpaßfiltern gebildet, welche jeweils 15 Kanälen entsprechen, welche durch Aufteilen eines Sprach­ bereichs in 15 Bändern festgelegt sind. Ferner enthält die Bandpaßfilter-Bank 13 einen Gleichrichter und ein Tiefpaßfilter, das für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi­ tal-(A/D-)Umsetzer 14 multiplext die Ausgangssignale auf den 15 Kanälen von der Bandpaßfilter-Bank 13 und er­ zeugt ein Multiplex-Signal. Ferner fragt der A/D-Umsetzer 14 das Multiplex-Signal jeweils alle 10 ms ab. Ein erster Merkmalextrahierblock 10 besteht aus dem Mikrophonverstär­ ker 11, dem Vorverzerrer 12, der Bandpaßfilter-Bank 13 und dem A/D-Umsetzer 14 und extrahiert ein Leistungsspektrum X(f) einer ein Geräusch enthaltenden Sprache. Der Buchstabe "f" stellt Zahlen dar, welche einzeln den 15 Kanälen zu­ geordnet sind.
Ein Mikrophonverstärker 21 verstärkt ein Signal (ein Bezugs­ eingangssignal), welches von einem Mikrophon abgegeben wird, an welchem das Hintergrundgeräusch aufgenommen wird. Ein Vorverzerrer 22 erhält das Bezugseingangssignal von dem Mi­ krophonverstärker 21 und hebt eine hochfrequente Komponente mit einer geringen Energie an. Eine Bandpaßfilter-Bank 23 ist aus 15 Bandpaßfiltern gebildet, welche jeweils 15 Kanälen entsprechen, welche durch Aufteilen eines Sprachbereichs in 15 Bändern festgelegt sind. Ferner enthält die Bandpaßfil­ ter-Bank 23 einen Gleichrichter und ein Tießpaßfilter, das für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi­ tal-(A/D-)Umsetzer 24 multiplext die Ausgangssignale an den 15 Kanälen von der Bandpaßfilter-Bank 23 und erzeugt ein Multi­ plex-Signal. Ferner fragt der A/D-Umsetzer 24 das Multiplex- Signal jeweils alle 10 ms ab. Ein zweiter Merkmalextrahier­ block 20 ist aus dem Mikrophonverstärker 21, dem Vorver­ zerrer 22, der Bandpaßfilter-Bank 23 und dem A/D-Umsetzer 24 gebildet und extrahiert ein Leistungsspektrum N(f), des in der Sprache enthaltenen Geräusches. Der Buchstabe "f" stellt wieder Zahlen dar, welche einzeln den 15 Kanälen zu­ geordnet sind.
Ein Sprachabschnitt-Detektor 31 erhält zeit-serielle Lei­ stungsspektren X(f) und N(f), d.h. Zeit-Spektralmuster, welche von den ersten bzw. zweiten Merkmalextrahierblöcken 10 und 20 abgegeben werden. Dann stellt der Sprachabschnitt- Detektor 31 einen Sprachabschnitt für jedes der Frequenzbän­ der (15 Kanäle) durch die folgenden zwei Schritte fest. Bei dem ersten Schritt wird bestimmt, ob ein Sprachabschnitt (ein Abschnitt auf der Zeitachse, in welchem eine Sprache vorhanden ist) für jedes der Frequenzbänder existiert oder nicht. Beim zweiten Schritt wird ein Sprachabschnitt auf der Fre­ quenzachse aus dem festgestellten Sprachabschnitt auf der Zeitachse abgeleitet.
Der Sprachabschnitt ist folgendermaßen definiert:
wobei Tha ein vorherbestimmter Schwellenwert ist. In einem Fall, bei welchem zu der Zeit, wenn ein vorstehend festge­ legter Sprachabschnitt erhalten wird, ein Wert, welcher durch die folgende Formel aus einem Leistungsspektrum X(f) der Geräusche enthaltenden Sprache für jeden zu diesem Zeit­ punkt erhaltenen Kanal, aus einem Leistungsspektrum N(f) des Geräusches und aus den zwei geräusche-beseitigenden Ver­ änderlichen k(f) und d(f), welche in einem Geräusche-Beseiti­ gungsblock 32 gespeichert sind (welcher nachstehend noch im einzelnen beschrieben wird) abgeleitet worden ist, größer oder gleich als ein vorherbestimmter Schwellenwert Th(f) ist, welcher für jeden Kanal festgelegt ist:
X(f)-k(f) · N(f)-d(f) Th(f) (2)
ein Kanal oder Kanäle f, welche der vorstehenden Formel (2) genügen, als ein Sprachband oder -Bänder festgelegt werden, und der restliche Kanal oder Kanäle f als ein Nicht-Sprach­ band oder -bänder festgelegt werden.
Der Geräusche-Beseitigungsblock 32 weist geräusche-beseiti­ gende Veränderliche k(f) und d(f) (f=1, 2, . . ., 15) auf, welche für jeden der 15 Kanäle vorgesehen sind. Wenn der Sprachabschnitt-Detektor 31 einen Nicht-Sprachabschnitt auf einem Kanal unterscheidet, werden die geräusche-beseiti­ genden Veränderlichen k(f) und d(f) durch die folgende For­ mel aus einem Leistungsspektrum Xn(f) von Geräusche enthal­ tender Sprache, die auf dem vorstehend angegebenen Kanal zu diesem Zeitpunkt erhalten worden ist, und aus einem Geräusch­ spektrum Nn(f) des Geräusches festgestellt, so daß der Veränderlichen erneuert werden:
k(f)=((Xn(f)²-C²)/Nn(f)²)1/2
  für Xn(f)<C (3)
k(f)=0 für Xn(f) C (4)
d(f)=Xn(f)-k(f) · Nn(f) (5)
wobei das Suffix "n" einen Nicht-Sprachabschnitt bezeichnet und C größer als null ist (C<0). Andernfalls können Lei­ stungsspektren Xn(f) und Nn(f) durch Mittelwerte von mehre­ ren Abfragewerten dargestellt werden, welche sich auf einen Nicht-Sprachabschnitt beziehen. Ein Leistungsspektrum Sn(f) einer Sprache, in der Geräusche beseitigt sind, das zu die­ sem Zeitpunkt festgelegt worden ist, ist so, daß gilt: Sn(f) = 0.
Wenn andererseits der Sprachabschnitt-Detektor 31 einen Sprachabschnitt auf einem Kanal feststellt, wird ein Lei­ stungsspektrum Ss(f) einer Sprache, in der Geräusche besei­ tigt sind, nach der folgenden Formel aus einem Leistungsspek­ trum Xs(f) einer Geräusche enthaltenden Sprache auf dem vor­ stehenden Kanal, aus einem Leistungsspektrum Ns(f) des Ge­ räusches und der geräusche-beseitigenden Veränderlichen k(f) und d(f) berechnet:
Ss(t, f)=Xs(f)-k(f) · Ns(f)-d(f) (6)
wobei das Suffix "s" einen Sprachabschnitt bezeichnet.
Fig. 4 ist ein Flußdiagramm eines Prozesses, welcher von dem Sprachabschnitt-Detektor 31 und von dem Geräusche-Beseiti­ gungsblock 32 durchgeführt wird und welcher für eine Abfra­ gezeit durchgeführt wird. Da derselbe Berechnungsalgorithmus in dem Sprachabschnitt-Detektor 31 und dem Geräusche-Beseiti­ gungsblock 32 verwendet wird, werden deren Prozesse zusammen durchgeführt.
In Fig. 4 werden beim Schritt 100 X(f) und N(f) eingegeben.
Beim Schritt 101 werden
berechnet. Beim Schritt 102 wird f gleich 1 gesetzt. Beim Schritt 103 wird festgestellt, ob ΣX(f)N(f) Tha ist oder nicht. Wenn das beim Schritt 103 erhaltene Ergebnis ja ist, wird ein Leistungsspektrum S(f) beim Schritt 104 durch die Formel (2) oder (6) berechnet. Beim Schritt 105 wird be­ stimmt, ob S(f) Th(f) ist oder nicht. Wenn das Ergebnis beim Schritt 105 nein ist, oder wenn das Ergebnis beim Schritt 103 nein ist, wird bei einem Schritt 106 fortgefahren, bei welchem 0 in S(f) geschrieben wird. Beim Schritt 107 werden die vorerwähnten Formeln (3), (4) und (5) berechnet. Dann wird auf den Schritt 108 übergegangen, welcher ebenfalls durchge­ führt wird, wenn das beim Schritt 105 erhaltene Ergebnis ja ist. Beim Schritt 108 wird f+1 anstelle von f geschrieben, d.h. f wird um +1 inkrementiert. Beim Schritt 109 wird be­ stimmt, ob f größer als 15 ist oder nicht. Wenn das Ergebnis beim Schritt 109 nein ist, wird auf den Schritt 103 zurückge­ gangen. Wenn dagegen das beim Schritt 109 erhaltene Ergebnis ja ist, wird auf den Schritt 110 vorgerückt, bei welchem ein Rahmendatenwert S(f) abgegeben wird. Die Berechnung, welche auf den Formel (3) bis (6) beruht, wird mit hohen Geschwin­ digkeiten durchgeführt, welche mit Hilfe einer logarithmischen und einer exponentiellen Tabelle erreicht worden sind.
Die Beziehung zwischen Xn(f), Nn(f) und k(f) kann durch die Gleichung von Xn(f) 2-k(f) 2×Nn(f) 2=C 2 dargestellt wer­ den. Ein Graph, welcher dieser Gleichung entspricht, ist in Fig. 3 dargestellt. Der der Gleichung entsprechende Graph weist einen Teil einer Hyperbel auf. Wie aus dem Graphen der Fig. 3 ersehen werden kann, werden, wenn ein Hintergrundge­ räusch einen beachtlichen hohen Pegel hat, d.h. wenn Xn(f), Nn(f)»C ist, die folgenden Gleichungen erhalten:
k(f)=Xn(f)/Nn(f)
d(f)=0 (7)
Genauer gesagt, nähern sich k(f) und d(f) Xn/Nn(f) bzw. 0. Zu diesem Zeitpunkt lautet die Gl. (6) folgendermaßen:
Ss(f)=Xs(f)-k(f) · Ns(f) (8)
Gl. (8) paßt zu dem vorerwähnten, adaptiven Geräuschunter­ drückungsverfahren. Im Gegensatz hierzu genügen, wenn das Hintergrundgeräusch auf einem niedrigen Pegel liegt, d.h. wenn Xn C genügt ist, den folgenden Gleichungen
k(f)=0
d(f)=Xn(f) (9)
Folglich kann die vorerwähnte Gl. (6) folgendermaßen ge­ schrieben werden:
Ss(f)=Xs(f)-d(f)=Xs(f)-Xn(f) (10)
Gl. (10) paßt zu dem vorerwähnten spektralen Subtraktionsver­ fahren.
Es kann auch ein anderer, einen Sprachabschnitt bestimmender Prozeß verwendet werden, welcher in dem Sprachabschnitt- Detektor 31 durchzuführen ist. In einem alternativen Prozeß werden die Werte von ΣX(f) und ΣN(f) statt mittels der Bandfilter 13 und 23 mittels eines Filters erhalten, welcher Signalkomponenten in allen 15 Kanälen durchläßt. Es ist auch möglich, den Wert von ΣN(f) mit einem Koeffizienten zu mul­ tiplizieren. Auch können die Schwellenwerte Tha und Th(f) entsprechend dem Pegel eines Hintergrundgeräusches geändert werden.
In der vorerwähnten Ausführungsform gemäß der Erfindung werden die Werte der geräusche-beseitigenden Veränderlichen k(f) und d(f) so, wie sie in dem Sprachband während des Sprachabschnitts sind, mit Hilfe der Operationsergebnisse von dem Sprachabschnitt-Detektor 21 und dem Geräusche-Be­ seitigungsblock 32 erhalten. Andernfalls können die geräusche-beseitigenden Veränderlichen k(f) und d(f) erneu­ ert werden, wenn ein Verfahren angewendet wird, welches darauf gerichtet ist, eine plötzliche Änderung zu verhin­ dern, welche größer als vorherbestimmte Werte der geräusche- beseitigenden Veränderlichen ist. Bei dieser Alternative können dann die geräusche-beseitigenden Veränderlichen k(f) und d(f) sogar in dem Sprachabschnitt erneuert werden. Die Tatsache, daß die Phasendifferenz zwischen den Blöcken 10 und 20 (Fig. 1) in der Ausführungsform nicht ausgeglichen wird, ist der Grund dafür, daß Geräuschkomponenten auf der Frequenzbasis beseitigt werden und das Abfragen jeweils alle 10 ms durchgeführt wird, und daß die Phasendifferenz daher vernachlässigbar ist. Natürlich kann zusätzlich auch ein herkömmliches Verfahren zum Ausgleichen der Phasendifferenz angewendet werden.
Die Hyperbel, welche durch die Formel (1) festgelegt ist, kann durch eine Hyperbel ersetzt werden, welche durch die folgende Formel (1) festgelegt ist:
k(f)=((Xn(f)²-C₁²)/(Nn(f)²+C₂²))1/2 (1′)
wobei C 1, C 2<0 und Xn(f)<C 1 ist. Eine gekrümmte Linie, welche einer Hyperbel ähnlich ist, kann hierfür verwendet werden.
Nunmehr wird anhand von Fig. 2 eine Spracherkennungseinrich­ tung beschrieben, bei welcher die vorstehend beschriebene Einrichtung zum Beseitigen von Geräuschen gemäß der Erfin­ dung verwendet ist. In Fig. 2 ist eine Einrichtung 50 zum Beseitigen von Geräuschen so ausgeführt, wie vorstehend be­ schrieben worden ist, und sie erzeugt ein Spektrum S(f) einer Sprache, in welcher Geräusche beseitigt sind, aus ei­ nem Spektrum einer Geräusche enthaltenden Sprache und aus einem Spektrum der Geräusche. In einem Block 60 wird ein Eingangsmuster einer Sprache, in welcher Geräusche besei­ tigt sind, aus der Merkmalsmenge S(f) der eingegebenen Sprache erzeugt, welche von der geräusche-beseitigenden Ein­ richtung 50 geliefert worden ist. Ein Bezugsmuster-Speicher 70 speichert eine Anzahl Bezugsmuster für eine individuelle Sprache. Ein Erkennungsblock 80 führt eine Spracherkennungs­ prozedur mit Hilfe des Musters, welches von dem ein Muster erzeugenden Block 60 eingegeben worden ist, und mit Hilfe der Bezugsmuster durch, welche in dem Bezugsmuster-Speicher 70 registriert sind, und erzeugt als das Erkennungsergebnis eines der Bezugsmuster, welches den höchsten Ähnlichkeits­ grad zu dem eingegebenen Eingangsmuster hat.
Eingangsmuster, welche mittels des Blocks 60 erzeugt worden sind, und die in dem Speicher 70 registrierten Bezugsmuster sind binäre Zeit-Spektralmuster (BTSP), wie sie beschrieben sind in "SPEAKER-INDEPENDENT WORD RECOGNITION USING FUZZY PATTERN MATCHING", J. Fujimoto et al., Fuzzy Sets and Systems 32 (1989) Stn. 181-191, North-Holand, oder in "SPEECH RECOGNITION PROCESSORS USING FUZZY PATTERN MATCHING", T. Ariyoshi et al., IEEE Custom Integrated Circuits Con­ ference 10.6.1 (1988). Der in dem Erkennungsblock 80 durch­ geführte Erkennungsprozeß paßt zu einem in den vorstehend an­ geführten Unterlagen beschriebenen BTSP-Verfahren. Anderer­ seits können Eingangsmuster erzeugt werden und eine Sprach­ erkennung auf der Basis einer herkömmlichen DP-Anpassungs­ prozedur realisiert werden.
In Fig. 5 ist eine Hardware-Struktur der in Fig. 1 oder 2 dargestellten Einrichtung wiedergegeben. Ein Mikroprozessor- System weist einen Mikroprozessor 110, einen Steuersignal- Generator 120, einen Programm-Festwertspeicher (ROM) 130, einen Daten-Randomspeicher 140 und eine Ein/Ausgabe-Einheit (I/O) 150 auf. Der Steuersignal-Generator 120 erzeugt ein Taktsignal, welches an die dargestellten Blöcke zu liefern ist, ein Adressen-Dekodiersignal, ein Unterbrechungssignal, (welches für jeweils 10 ms erzeugt wird) usw. Das heißt, der Steuersignal-Generator 120 erzeugt Signale, welche für her­ kömmliche Mikroprozessor-Systeme notwendig sind. Wenn die dargestellte Anordnung als die geräusche-beseitigende Ein­ richtung dient, speichert der Programm-Festwertspeicher 130 Programme, welche die Prozesse durchführen, um nicht nur Sprachabschnitte in einem eingegebenen Sprachsignal festzu­ stellen, Geräusche aus dem eingegebenen Sprachsignal zu be­ seitigen, und Eingangsmuster zu erzeugen, sondern auch um das Interface zwischen der erfindungsgemäßen Einrichtung und einer externen Einrichtung zu schaffen. Wenn dagegen das be­ schriebene System als die Spracherkennungseinrichtung dient, speichert der Programm-Festwertspeicher (ROM) 130 Programme, welche die Prozesse durchführen, Sprachabschnitte in einem ankommenden Sprachsignal feststellen, Geräusche aus dem ein­ gegebenen Sprachsignal beseitigen und Eingangsmuster erzeu­ gen, eine eingegebene Sprache erkennen und das Interface zwi­ schen der erfindungsgemäßen Einrichtung und einer externen Einrichtung schaffen. Der Daten-Randomspeicher (RAM) 140 speichert dann die Bezugsmuster von Sprache, welche für eine Spracherkennung verwendet wird. Die Ein-/Ausgabeein­ heit 150 behandelt eine Signalverarbeitung, welche auf dem herkömmlichen RS232C-Interface basiert und führt eine Kommu­ nikation mit einer externen Einrichtung durch.
Mikrophone MIC 1 und MIC 2 sind an den ersten bzw. zweiten Merkmal-Extrahierblöcken 10 und 20 angebracht. Über das Mi­ krophon MIC 1 wird eine Sprache mit Geräuschen und über das Mikrophon MIC 2 werden Hintergrundgeräusche (Bezugseingang) eingegeben. Jedes der Mikrophone MIC 1 und MIC 2 ist in allen Richtungen in gleicher Weise empfindlich.
Der erste Merkmalextrahierblock 10 hat denselben Aufbau, wie der zweite Merkmalsextrahierblock 20, und ist, wie in Fig. 6 dargestellt, aus herkömmlichen Bauelementen aufgebaut. Der Mikrophonverstärker verstärkt ein Sprachsignal von dem Mi­ krophon MIC 1 oder MIC 2. Die Verstärkung des Mikrophon-Ver­ stärkers 11 ist im Hinblick auf die Empfindlichkeit des zu verwendenden Mikrophons entsprechend gewählt. Der Vorver­ zerrer 12 hebt Signalkomponenten mit Frequenzen, welche hö­ her als 1,6 kHz sind, um 6 dB/oct. an. Das Bandfilter 16 besteht aus einer Filterbank für 15 Kanäle, welche aus Bandpaßfiltern (BPF) 13-1, bis 13-15, aus Vollwegleichrich­ tern (RECT) 13-b 1 bis 13-b 15 und Tiefpaßfiltern (LPF) 13-c 1 bis 13-c 15 gebildet ist. Die Kenndaten der Bandpaßfilter (BPF) 13-a 1 bis 13-a 15 sind so gewählt, daß Q = 6 ist, und deren Mittenfrequenzen folgende Frequenzen sind: f 01 = 250, f 02 = 315, f 03 = 397, f 04 = 500, f 05 = 630, f 06 = 794, f 07 = 1000, f 08 = 1260, f 09 = 1590, f 10 = 2000, f 11 = 2520, f 12 = 3180, f 13 = 4000, f 14 = 5040 und f 15 = 6350.
Der A/D-Umsetzer 14 weist einen Multiplexer 14-a, eine Abfrage- und Halteschaltung 14-b und einen A/D-Umsetzer 14-c auf. Entsprechend einem diesbezüglichen Befehl von dem Mikroprozessor 110 (Fig. 5) werden die Ausgangssignale auf den 15 Kanälen von der Bandpaßfilter-Bank 13 aus dem Multiplexer 14-a zugeführt, welcher daraus ein digitales 12 Bit-Signal ableitet.
Gemäß den vorstehend beschriebenen Ausführungsformen der Erfindung wird das Spektrum S(f) einer Sprache, in welcher Geräusche beseitigt sind, mittels der Formel (6) mit Hilfe der durch die Formeln (3) bis (5) dargestellten, geräusche- beseitigenden Veränderlichen k(f) und d(f) aus dem Leistungs­ spektrum X(f) einer Geräusche enthaltenden Sprache und dem Spektrum N(f) des Geräusches bzw. der Geräusche erhalten. Wenn der Pegel von Hintergrundgeräuschen niedrig ist, wer­ den mittels der geräusche-beseitigenden Veränderlichen d(f) wirksam Geräuschkomponenten beseitigt. Wenn dagegen der Pe­ gel von Hintergrundgeräuschen hoch ist, werden mittels der geräusche-beseitigenden Veränderlichen k(f) wirksam Ge­ räuschkomponenten beseitigt. Wenn die Hintergrundgeräusche- einen mittleren Pegel haben, übernehmen beide geräusche­ beseitigenden Veränderlichen k(f) und d(f) die Rolle, das Geräusch bzw. die Geräusche zu beseitigen. Folglich ist es möglich, wirksam Geräusche mit einem weiten Pegelbereich und dynamische Hintergrundgeräusche zu beseitigen. Es sollte jedoch beachtet werden, daß der Algorithmus der Erfindung eine geringe Anzahl von Bestimmungsschritten aufweist, so daß eine geringe Programmierung erforderlich ist, und die Betriebsgeschwindigkeit sehr hoch ist.
Gemäß der Erfindung wird die Sprachabschnitt-Bestimmungspro­ zedur für jedes Band durchgeführt. Wenn ein Sprachabschnitt für ein Band festgestellt wird, werden die geräusche-besei­ tigenden Veränderlichen k(f) und d(f) bezüglich dieses Ban­ des erneuert. Folglich kann sogar während eines Sprachab­ schnitts oder genauer gesagt während einer Zeit, während welcher keine Sprachkomponente in einem bestimmten Band vor­ handen ist und eine Sprachkomponente in einem anderen Band vorhanden ist, ein Wert der Geräuschkomponente in einem Band vorhergesagt werden, in welchem es keine Sprachkompo­ nente gibt. Bei dieser Anordnung können somit wirksam dy­ namische Geräusche beseitigt werden.
Die Spracherkennungseinrichtung gemäß der Erfindung ent­ hält die vorstehend beschriebene Einrichtung zum Beseiti­ gen von Geräuschen. Folglich kann Sprache erkannt werden, welche in einer Umgebung ausgesprochen worden ist, in wel­ cher Hintergrundgeräusche Komponenten haben, welche einen sehr großen Bereich abdecken, oder dynamische Hintergrund­ geräusche vorliegen. Ferner kann die Geräusche-Beseitigungs­ prozedur mittels eines sehr geringen Programmieraufwands realisiert werden und mit hohen Geschwindigkeiten durchge­ führt werden. Folglich kann eine einzige Zentraleinheit (CPU) sowohl mit der Geräusch-Beseitigungssteuerung als auch mit der Spracherkennungssteuerung geschaffen werden. In herkömmlicher Weise werden zwei gesonderte Zentraleinhei­ ten (CPU) für die Beseitigung von Geräuschen sowie für die Spracherkennung verwendet. Bei der Erfindung ist somit die Hardware verkleinert.

Claims (10)

1. Einrichtung zum Beseitigen von Geräuschen, mit einer ersten Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) ( mit f = 1, 2, . . . n) einer ankommen­ den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren und mit einer zweiten Merkmalextrahiereinrichtung (20), um individuell eine Merk­ malsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, gekennzeichnet durch eine geräusch-beseitigen­ de Einrichtung (32), welche mit den ersten und zweiten Merk­ malextrahier-Einrichtungen (10, 20) verbunden ist, um eine erste geräusch-beseitigende Veränderliche k(f) und eine zweite geräusch-beseitigende Veränderliche d(f) aus der Merk­ malsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n-Kanäle abzuleiten und um eine Merkmalsmenge S(f) einer Sprache, in welcher Ge­ räusche beseitigt sind, entsprechend der folgenden Formel zu erzeugen: S (f) = X(f)-k(f) · N(f)-d(f).
2. Einrichtung nach Anspruch 1, dadurch gekenn­ zeichnet, daß der Wert f n Frequenzbändern auf einer Frequenzachse entspricht.
3. Einrichtung nach den Ansprüchen 1 und 2, gekenn­ zeichnet durch eine Feststelleinrichtung (31), um einen Sprach­ abschnitt, in welchem eine Sprachkomponente der ankommen­ den Sprache vorhanden ist, und einen Nicht-Sprachabschnitt durch Bezugnahme auf die Merkmalsmenge X(f) der ankommen­ den Sprache, welche Geräusche enthält, und unter Bezugnahme auf die Merkmalsmenge N(f) der Geräusche festzustellen, wo­ bei die geräusche-beseitigende Einrichtung (32) die erste geräusche-beseitigende Veränderliche k(f) und die zweite geräusche-beseitigende Veränderliche d(f) aus der Merkmals­ menge X(f), welche die ankommende Sprache enthält, die eine erste Geräuschkomponente in dem Nicht-Sprachenabschnitt ent­ hält, und aus der Merkmalsmenge N(f) der ersten Rauschkom­ ponente ableitet und die Merkmalsmenge S(f) der ankommenden Sprache, die von Geräuschen beseitigt ist, aus der Merk­ malsmenge X(f) der ankommenden Sprache, welche eine zweite Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der zweiten Geräuschkomponente ent­ sprechend der Formel erzeugt.
4. Einrichtung nach Anspruch 1, dadurch gekenn­ zeichnet, daß die erste geräusche-beseitigende Ver­ änderliche k(f), die zweite geräusche-beseitigende Verän­ derliche d(f), die Merkmalsmenge X(f) der ankommenden, die Geräusche enthaltenden Sprache und die Merkmalsmenge N(f) der Geräusche eine Beziehung haben, in welcher die erste geräusche-beseitigende Veränderliche k(f) null oder sehr viel kleiner als 1 ist, wenn eine der Merkmalsmengen X(f) und N(f) kleiner als eine vorherbestimmte Konstante ist, und die zweite geräusche-beseitigende Veränderliche d(f) null oder sehr viel kleiner als die Merkmalsmenge X(f), welche Geräusche enthält, welche zu dieser Zeit in der an­ kommenden Sprache enthalten sind, oder als die Merkmalsmenge N(f) der zu dieser Zeit enthaltenen Geräusche ist.
5. Einrichtung zum Beseitigen von Geräuschen, mit einer ersten Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) einer ankom­ menden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m Gruppen (2m n) unterteilt sind, und mit einer zwei­ ten Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu ex­ trahieren, gekennzeichnet durch eine Sprachabschnitt-Fühleinrichtung (31), welche mit dem ersten und zweiten Merkmal-Extrahiereinrichtungen verbunden ist, um für jede der m Gruppen einen Sprachabschnitt fest­ zustellen, in welchem eine Sprachkomponente der ankommenden Sprache durch Bezugnahme auf die Merkmalsmenge X(f) der ankommenden Sprache, welche eine Geräuschkomponente enthält, die in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmalsmenge N(f) der Geräusch­ komponente vorhanden ist, und durch eine geräusche-beseitigende Einrichtung (32), welche mit der ersten Merkmalextrahiereinrichtung (10), mit der zwei­ ten Merkmalextrahiereinrichtung (20) und der Sprachabschnitt- Fühleinrichtung (31) verbunden ist, um eine Merkmalsmenge S(f) einer ankommenden Sprache, in welcher Geräusche besei­ tigt sind, aus der Merkmalsmenge X(f) der ankommenden Spra­ che, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkompo­ nente herzuleiten.
6. Spracherkennungseinrichtung mit einer Einrichtung (50) zum Beseitigen von Geräuschen, um Geräusche, welche in ei­ ner ankommenden Sprache enthalten sind, zu beseitigen und um eine Sprache, in welcher Geräusche beseitigt sind, abzuge­ ben, mit einer Eingangsmuster erzeugenden Einrichtung (60), welche mit der Einrichtung zum Beseitigen von Geräuschen verbunden ist, um ein Eingangsmuster der ankommenden Sprache aus der Sprache, in welcher Geräusche beseitigt sind, zu er­ zeugen, mit einer Bezugsmuster-Speichereinrichtung (70) zum Speichern von Bezugsmustern, und mit einer Spracherkennungs­ einrichtung (80), welche mit der Eingangsmuster erzeugenden Einrichtung (60) und der Bezugsmuster-Speichereinrichtung (70) verbunden ist, um das Eingangsmuster von der Eingangs­ muster erzeugenden Einrichtung mit den Bezugsmustern zu ver­ gleichen, und um eines der Bezugsmuster abzugeben, welches den höchsten Ähnlichkeitsgrad mit dem Eingangsmuster hat, dadurch gekennzeichnet, daß die Einrichtung (50) zum Beseitigen von Geräuschen aufweist
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommen­ den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, und
eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 20) verbunden ist, um eine erste geräusche-beseitigende Verän­ derliche k(f) und eine zweite geräusche-beseitigende Verän­ derliche d(f) aus der Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n- Kanäle herzuleiten, und um eine Merkmalsmenge X(f) einer ankommenden Sprache, in welcher Geräusche beseitigt sind, entsprechend der nachstehenden Formel zu erzeugen: S(f) = X(f)-k(f)×N(f)-d(f).
7. Spracherkennungseinrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die Größe f n Frequenz­ bändern auf einer Frequenzachse entspricht.
8. Spracherkennungseinrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Spracherkennungsein­ richtung eine Sprachabschnitt-Fühleinrichtung (31) aufweist, um einen Sprachabschnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, und um einen Nicht- Sprachabschnitt unter Bezugnahme auf die Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache und unter Bezugnahme auf die Merkmalsmenge N(f) der Geräusche festzu­ stellen, und daß die geräusche-beseitigende Einrichtung (32) die erste geräusche-beseitigende Veränderliche k(f) und die zweite geräusche-beseitigende Veränderliche d(f) aus der Merkmals­ menge X(f), welche die ankommende Sprache enthält, welche eine erste Geräuschkomponente in dem Nicht-Spracheabschnitt enthält, und aus der Merkmalsmenge N(f) der ersten Geräusch­ komponente ableitet und die Merkmalsmenge S(f) der ankommen­ den Sprache, in welcher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche eine zweite Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der zweiten Geräuschkompo­ nente entsprechend der Formel erzeugt.
9. Spracherkennungseinrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die erste geräusche-be­ seitigende Veränderliche k(f), die zweite geräusche-besei­ tigende Veränderliche d(f), die Merkmalsmenge X(f) der an­ kommenden, Geräusche enthaltenden Sprache und die Merkmals­ menge N(f) der Geräusche eine Beziehung haben, in welcher die erste geräusche-beseitigende Veränderliche k(f) null oder sehr viel kleiner als 1 ist, wenn eine der Merkmals­ mengen X(f) und N(f) kleiner als eine vorherbestimmte Kon­ stante ist, und die zweite geräusche-beseitigende Veränder­ liche d(f) null oder sehr viel kleiner als die Merkmalsmenge X(f), welche Geräusche enthält, die in der ankommenden Spra­ che zu diesem Zeitpunkt enthalten sind, oder als die Merk­ malsmenge N(f) der zu diesem Zeitpunkt erhaltenen Geräusche ist.
10. Spracherkennungseinrichtung, mit einer Einrichtung (50) zum Beseitigen von Geräuschen, um Geräusche, die in einer ankommenden Sprache enthalten sind, daraus zu entfernen und eine Sprache, in welcher Geräusche beseitigt sind, abzugeben, mit einer Eingangsmuster erzeugenden Einrichtung (60), wel­ che mit der Einrichtung zum Beseitigen von Geräuschen ver­ bunden ist, um ein Eingangsmuster der ankommenden Sprache aus der Sprache, in welcher die Geräuse beseitigt sind, zu erzeugen, mit einer Bezugsmuster-Speichereinrichtung (70) zum Speichern von Bezugsmustern, und mit einer Spracherken­ nungseinrichtung (80), welche mit der Eingangsmuster erzeu­ genden Einrichtung und der Bezugsmuster-Speichereinrichtung verbunden ist, um die Eingangsmuster von der Eingangsmuster erzeugenden Einrichtung mit den Bezugsmustern zu vergleichen und um eines der Bezugsmuster abzugeben, welches den höch­ sten Ähnlichkeitsgrad mit dem Eingangsmuster hat, dadurch gekennzeichnet, daß die Einrichtung (50) zum Beseitigen von Geräuschen aufweist:
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommenden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m- Gruppen (mit 2 m n) unterteilt sind;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren;
eine Sprachabschnitt-Fühleinrichtung (31), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) verbunden ist, um für jede der m-Gruppen einen Sprachab­ schnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, durch Bezugnahme auf die Merkmals­ menge X(f) der ankommenden Sprache, welche eine Geräusch­ komponente enthält, welche in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmal­ smenge N(f) der Geräuschkomponente festzustellen, und eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) und der Sprachabschnitt-Fühleinrichtung (31) verbunden ist, um eine Merkmalsgröße S(f) einer ankommenden Sprache, in wel­ cher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkomponente abzuleiten.
DE19904012349 1989-04-19 1990-04-18 Einrichtung zum beseitigen von geraeuschen Granted DE4012349A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1101141A JP2859634B2 (ja) 1989-04-19 1989-04-19 雑音除去装置
JP1261099A JP2863214B2 (ja) 1989-10-05 1989-10-05 雑音除去装置及び該装置を用いた音声認識装置

Publications (2)

Publication Number Publication Date
DE4012349A1 true DE4012349A1 (de) 1990-10-25
DE4012349C2 DE4012349C2 (de) 1993-08-26

Family

ID=26442058

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19904012349 Granted DE4012349A1 (de) 1989-04-19 1990-04-18 Einrichtung zum beseitigen von geraeuschen

Country Status (1)

Country Link
DE (1) DE4012349A1 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0522213A1 (de) * 1989-12-06 1993-01-13 National Research Council Of Canada Einrichtung zum Trennen der Sprache aus dem Hintergrundgeräusch
FR2681715A1 (fr) * 1991-09-25 1993-03-26 Matra Communication Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
DE4307688A1 (de) * 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
WO1997010586A1 (en) * 1995-09-14 1997-03-20 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
FR2768544A1 (fr) * 1997-09-18 1999-03-19 Matra Communication Procede de detection d'activite vocale
CN113259801A (zh) * 2021-05-08 2021-08-13 深圳市睿耳电子有限公司 一种智能耳机的喇叭降噪方法和相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1512758C1 (de) * 1967-02-14 1977-09-15 Sennheiser Electronic Vocoder fuer hohe Stoerlautstaerken
DE3642591C2 (de) * 1985-12-20 1989-03-02 Bayerische Motoren Werke Ag, 8000 Muenchen, De

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1512758C1 (de) * 1967-02-14 1977-09-15 Sennheiser Electronic Vocoder fuer hohe Stoerlautstaerken
DE3642591C2 (de) * 1985-12-20 1989-03-02 Bayerische Motoren Werke Ag, 8000 Muenchen, De

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"ADAPTIVE NOISE CANCELLING: PRINCIPLES AND APPLICATION", B. Widraw et al., Proc. IEEE Vol. 63Nr. 12, Stn. 1692 -1716, 1975 *
"SPEAKER-INDEPENDENT WORD RECOGNITION USING FUZZY PATTERN MATCHING", J. Fujimoto et al., Fuzzy Sets and Systems 32(1989) Stn. 181-191, North Holland *
"SPEECH RECOGNITION PROCESSORS USING FUZZY PATTERNMATCHING", T. Ariyoshi et al., IEEE Custom Integrated Circuits Conference 10.6.1 (1988) *
"SUPPRESSION OF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION", S.F. Boll, IEEE Trans. ASSP-27, Nr. 2, Stn. 113-120, 1979 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0522213A1 (de) * 1989-12-06 1993-01-13 National Research Council Of Canada Einrichtung zum Trennen der Sprache aus dem Hintergrundgeräusch
US5319736A (en) * 1989-12-06 1994-06-07 National Research Council Of Canada System for separating speech from background noise
FR2681715A1 (fr) * 1991-09-25 1993-03-26 Matra Communication Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
EP0534837A1 (de) * 1991-09-25 1993-03-31 MATRA COMMUNICATION Société Anonyme Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung einer nicht linearen spektralen Subtraktionsverfahren und Hidden-Markov-Modellen
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
DE4307688A1 (de) * 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
WO1997010586A1 (en) * 1995-09-14 1997-03-20 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
FR2768544A1 (fr) * 1997-09-18 1999-03-19 Matra Communication Procede de detection d'activite vocale
WO1999014737A1 (fr) * 1997-09-18 1999-03-25 Matra Nortel Communications Procede de detection d'activite vocale
US6658380B1 (en) 1997-09-18 2003-12-02 Matra Nortel Communications Method for detecting speech activity
CN113259801A (zh) * 2021-05-08 2021-08-13 深圳市睿耳电子有限公司 一种智能耳机的喇叭降噪方法和相关装置
CN113259801B (zh) * 2021-05-08 2023-07-18 深圳市睿耳电子有限公司 一种智能耳机的喇叭降噪方法和相关装置

Also Published As

Publication number Publication date
DE4012349C2 (de) 1993-08-26

Similar Documents

Publication Publication Date Title
DE112009000805B4 (de) Rauschreduktion
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69720087T2 (de) Verfahren und Vorrichtung zur Unterdrückung von Hintergrundmusik oder -geräuschen im Eingangssignal eines Spracherkenners
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
EP1091349B1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69738288T2 (de) Einrichtung zur unterdrückung einer störenden komponente eines eingangssignals
DE4126902C2 (de) Sprachintervall - Feststelleinheit
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE3925589C2 (de) Verfahren und Anordnung zur Störbefreiung von Sprachsignalen
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE4106405C2 (de) Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE10020756B4 (de) Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
EP1189419A2 (de) Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen
DE4012349A1 (de) Einrichtung zum beseitigen von geraeuschen
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
DE112021001228T5 (de) Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
EP0615226B1 (de) Verfahren zur Geräuschreduktion für gestörte Sprachkanäle

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition