DE4012349A1

DE4012349A1 - Einrichtung zum beseitigen von geraeuschen

Info

Publication number: DE4012349A1
Application number: DE19904012349
Authority: DE
Inventors: Takashi Ariyoshi
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-04-19
Filing date: 1990-04-18
Publication date: 1990-10-25
Also published as: DE4012349C2

Description

Die Erfindung betrifft eine Einrichtung zum Beseitigen von Geräuschen nach den Oberbegriffen der Ansprüche 1 und 5 und betrifft insbesondere eine geräusche-beseitigende Einrich tung, welche Komponenten von Hintergrundgeräuschen, die in einem Sprachsignal enthalten sind, aus einem Spracheingang in eine Spracherkennungseinrichtung entfernt. Ferner ist die Erfindung auf eine Spracherkennungseinrichtung mit ei ner derartigen geräusche-beseitigenden Einrichtung gerich tet. Die Erfindung ist in Verbindung mit einer Spracherken nung in geräuschvoller Umgebung, wie beispielsweise in Fahr zeugen, Büros, Wohnungen und Fabriken, anwendbar.

Bei der Spracherkennung wird durch das Vorhandensein von Hintergrundgeräuschen in der ankommenden Sprache die Sprach erkennungsrate beträchtlich verschlechtert. Folglich ist das Beseitigen von Hintergrundgeräuschen in ankommender Spra che ein ernsthaftes Problem, das zu lösen ist, wenn eine Spracherkennungseinrichtung in der Praxis eingesetzt wer den soll. Beispielsweise sollen Spracherkennungstechniken in einem fahrenden Fahrzeug beispielsweise als Tonsteuerung, Navigationssystemsteuerung und Sprachwählsteuerung angewen det werden. Es ist schwierig, ein Mikrophon mit einem hohen Signal-Rausch-Verhältnis (S/N-Verhältnis) zu verwenden, wel ches in der Nähe des Mundes eines Sprechers angebracht ist, wie beispielsweise ein Nahbesprechungsmikrophon.

Eine Vielzahl von Hintergrundgeräuschen, wie Motorengeräusche, Geräusche von abrollenden Rädern oder aus Radio- oder Stereo geräten wiedergegebene Klänge werden zu einer Sprache hinzu addiert, welche über das Mikrophon aufgenommen wird. Durch das Vorhandensein von Hintergrundgeräuschen wird das Erken nen von aufgenommener Sprache verschlechtert. Von den ver schiedenen, vorstehend erwähnten Geräuschen hängen die Geräusche von Motoren und Rädern von der Fahrzeuggeschwin digkeit ab und ändern sich stark in Abhängigkeit von der Um gebung. Ebenso ändern sich die aus Radio- oder Stereogerä ten wiedergegebenen Klänge stark in Abhängigkeit von der Frequenz und deren Amplitudenpegel. Unter diesem Gesichts punkt müssen daher geräusche-beseitigende Techniken geschaf fen werden, welche unabhängig von der Größe des Hintergrund geräusches sind, und mit welchen wirksam Geräuschkomponenten beseitigt und eliminiert werden können, selbst wenn der Fre quenzbereich des Geräusches sich ändert.

Es ist ein spektrales Subtraktionsverfahren bekannt, wel ches im allgemeinen angewendet wird, um Geräuschkomponen ten in einem Spracheingang zu einer Spracherkennungsein richtung zu beseitigen, und bei welchem als Sprachmerkmale zeit-spektrale Muster verwendet werden. (Siehe "SUPPRESSION OF ACOUSTIC NOISE IN SPEECH USING SPECTRAL SUBTRACTION", S. F. Boll, IEEE Trans. ASSP-27, Nr. 2, Stn. 113-120, 1979).

Bei dem vorgeschlagenen Subtraktionsverfahren wird ein Ein gang über einem Abschnitt gemittelt, in welchem keine Spra che vorhanden ist, ein gemittelter Eingangswert wird als ein Geräuschspektrum gehalten, und das Geräuschspektrum wird von einem Spektrum einer aufgenommenen Sprache subtrahiert, wel che Geräuschkomponenten enthält. Das Subtraktionsergebnis wird als ein endgültiges Sprachspektrum abgegeben. Hierbei ist jedoch zu beachten, daß das vorgeschlagene Verfahren auf der Annahme beruht, das Hintergrundrauschen bezüglich der Zeitbasis stationär ist, wie beispielsweise weißes Rauschen. Folglich ist das vorgeschlagene Verfahren nur wirksam bezüg lich stationärer Geräusche, aber weniger wirksam im Hinblick auf dynamische Geräusche. Insbesondere kann, wenn stationäre Geräusche sehr laute Komponenten haben, das vorgeschlagene Verfahren solche Geräuschkomponenten nicht wirksam beseiti gen.

Es ist auch ein adaptives, Geräusche unterdrückendes Verfah ren bekannt, bei welchem ein Primäreingang und ein Bezugs eingang verwendet wird (siehe "ADAPTIVE NOISE CANCELLING: PRINCIPLES AND APPLICATION", B. Widraw et al., Proc, IEEE, Vol. 63, Nr. 12, Stn. 1692 bis 1716, 1975). Ferner ist eine Geräusche-Unterdrückungseinrichtung bekannt, bei welcher das vorstehend angeführte adaptive Geräusche-Unterdrückungs- Verfahren angewendet ist (Siehe die am 25.9.1989 veröffent lichte japanische Patentanmeldung Nr. 1-2 39 596, welche der am 14. März 1988 eingereichten US-Patentanmeldung S.N. 1 67 619 entspricht). Ein in der vorerwähnten japanischen Patentanmeldung beschriebenes adaptives Filter entspricht einer Verbesserung des adaptiven Geräusche-Unterdrückungs verfahren, welches in der Veröffentlichung von Widraw et al beschrieben ist, in welcher ein Koeffizient, welcher ein Ausgleichen der Amplituden- und Phasendifferenz zwischen den zwei Eingängen betrifft, für jeden der Vielzahl Frequenz bereiche vorgesehen ist, so daß Geräuschkomponenten, die von einer Vielzahl Geräuschquellen stammen, unterdrückt werden können. Jedoch haben die adaptiven Geräusche-Unterdrückungs verfahren mit zwei Eingängen einen Nachteil, daß es nämlich schwierig ist, infolge der Tatsache, daß die Werte der Ko effizienten, welche bestimmt werden, wenn ein Geräusch ge ring ist, große Fehler aufweisen, ein Geräusch wirksam zu unterdrücken. Aus diesem Grund eignet sich eine spektrale Subtraktionsmethode mit einem einzigen Eingang für dynami sches Geräusch mit einem geringen Pegel eher als die spek trale Subtraktionsmethode mit zwei Eingängen.

Bei Abwägen der vorerwähnten Vorteile und Nachteile er gibt sich, daß ein gewisser Schwellenwert vorgesehen ist und erst bei einer Geräuschbehandlung und -verarbeitung zwischen den spektralen Subtraktionsverfahren mit einem einzigen Ein gang und mit zwei Eingängen umgeschaltet wird, indem der Hintergrundgeräuschpegel mit dem Schwellenwertpegel ver glichen wird. Dies hat jedoch die folgenden Nachteile. Erstens zeigen sich, wenn der Hintergrundgeräuschpegel nahe bei dem Schwellenwertpegel liegt, die Nachteile der vorer wähnten zwei Verfahren. Zweitens ist es sehr schwierig, die Sprachmuster, in welchen Geräusche beseitigt sind, und wel che aus den zwei Verfahren abgeleitet werden, gleichmäßig zu behandeln. Infolge der vorerwähnten beiden Gründe ist die Erkennungsrate in der Nähe von Geräuschpegeln außeror dentlich niedrig. Drittens müssen, wenn Geräuschpegel nahe den Schwellenwertpegeln liegen, die beiden Verfahren durch geführt werden, wobei dann bei dieser Methode eine größere Datenmengen zu verarbeiten ist.

Darüber hinaus wird im allgemeinen das Einstellen verschiede ner Koeffizienten zum Beseitigen von Geräuschelementen nicht nur in herkömmlichen spektralen Subtraktionsverfahren, son dern auch in adaptiven Geräuschunterdrückungsverfahren in einem Abschnitt außer einem Sprachabschnitt durchgeführt. Das heißt, die Prozedur zum Erneuern derartiger Koeffizien ten wird nicht in einem Sprachabschnitt durchgeführt. Wenn dynamisches Rauschen (dessen Pegel oder Frequenz oder die Position einer Geräuschquelle) sich während des Sprachab schnitts ändert, ist es unmöglich, geeignete Werte von Ko effizienten auszuwählen und somit Geräuschkomponenten zu be seitigen.

Gemäß der Erfindung soll daher eine Einrichtung zum Beseiti gen bzw. Eliminieren von Geräuschen geschaffen werden, wel che die vorerwähnten Nachteile nicht mehr aufweist. Darüber hinaus soll gemäß der Erfindung eine Einrichtung zum Besei tigen von Geräuschen geschaffen werden, bei welchem Hinter grundgeräuschkomponenten aus einem Sprachsignal, welches die selben enthält, wirksam beseitigt bzw. eliminiert werden können. Darüber hinaus soll gemäß der Erfindung eine Einrich tung zum Beseitigen von Geräuschen geschaffen werden, bei welcher wirksam Hintergrundgeräuschkomponenten aus einem Sprachsignal, welches dieselben enthält, ungeachtet der Pegel der Hintergrundgeräusch-Komponenten beseitigt werden können. Darüber hinaus soll gemäß der Erfindung eine Einrich tung zum Beseitigen von Geräuschen geschaffen werden, bei welcher Koeffizienten zum Beseitigen von Geräusch so oft wie möglich erneuert werden, so daß in einem Sprachsignal ent haltene Hintergrundgeräusche entsprechend einer Geräuschän derung wirksam beseitigt werden.

Gemäß der Erfindung ist dies bei einer Einrichtung zum Be seitigen von Geräuschen nach den Oberbegriffen der Ansprüche 1 oder 5 durch die Merkmale in deren kennzeichnenden Teil er reicht. Vorteilhafte Weiterbildungen der Erfindung sind Ge genstand der auf die vorgenannten Ansprüche 1 und 5 unmittel bar bzw. mittelbar rückbezogenen Unteransprüche.

Ferner soll gemäß der Erfindung eine Spracherkennungsein richtung mit der erfindungsgemäßen Einrichtung zur Beseiti gung von Geräuschen geschaffen werden. Gemäß der Erfindung ist eine derartige Spracherkennungseinrichtung nach dem Oberbegriff des Anspruchs 6 durch die Merkmale in dessen kennzeichnenden Teil gelöst. Vorteilhafte Weiterbildungen einer Spracherkennungseinrichtung nach Anspruch 6 sind Ge genstand der Unteransprüche 7 bis 9. Eine vorteilhafte Wei terbildung einer Spracherkennungseinrichtung ist durch die Merkmale im kennzeichnenden Teil des Anspruchs 10 gekenn zeichnet.

Nachfolgend wird die Erfindung anhand von bevorzugten Aus führungsbeispielen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm einer Einrichtung zum Beseiti gen von Geräuschen gemäß einer ersten bevorzugten Ausführungsform der Erfindung;

Fig. 2 ein Blockdiagramm einer Spracherkennungseinrich tung, bei welcher die in Fig. 1 dargestellte Ein richtung zum Beseitigen von Geräuschen verwendet ist;

Fig. 3 einen Graphen, welcher die Beziehung zwischen geräusche-beseitigenden Veränderlichen k(f) und d(f), einer Merkmalsmenge X(f) einer Geräusche enthaltenden Sprache und einer Merkmalsmenge N(f) des in der Sprache enthaltenen Geräusches wieder gibt;

Fig. 4 ein Flußdiagramm eines Prozesses, welcher mittels eines Sprachabschnitt-Detektors und eines geräusche- beseitigenden Blocks durchgeführt wird und welcher für eine Abfrage durchgeführt wird;

Fig. 5 ein Blockdiagramm einer Hardware-Struktur der in Fig. 1 oder 2 dargestellten geräusche-beseitigenden Einrichtung, und

Fig. 6 ein Blockdiagramm eines in Fig. 1 oder 5 darge stellten Merkmalextrahierblockes.

Anhand von Fig. 1 wird zuerst eine Einrichtung zum Beseiti gen von Geräuschen gemäß einer ersten bevorzugten Ausführungs form der Erfindung beschrieben. Ein Mikrophon-Verstärker 11 verstärkt ein Signal (ein primäres Eingangssignal), welches von einem Mikrophon abgegeben wird, an welchem eine Hinter grundgeräusche enthaltende Sprache aufgenommen wird. Ein Vorverzerrer 12 erhält das primäre Eingangssignal von dem Mikrophon-Verstärker 11 und hebt eine hochfrequente Kompo nente mit einer geringen Energie an. Eine Bandpaßfilter- Bank 13 ist aus 15 Bandfpaßfiltern gebildet, welche jeweils 15 Kanälen entsprechen, welche durch Aufteilen eines Sprach bereichs in 15 Bändern festgelegt sind. Ferner enthält die Bandpaßfilter-Bank 13 einen Gleichrichter und ein Tiefpaßfilter, das für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi tal-(A/D-)Umsetzer 14 multiplext die Ausgangssignale auf den 15 Kanälen von der Bandpaßfilter-Bank 13 und er zeugt ein Multiplex-Signal. Ferner fragt der A/D-Umsetzer 14 das Multiplex-Signal jeweils alle 10 ms ab. Ein erster Merkmalextrahierblock 10 besteht aus dem Mikrophonverstär ker 11, dem Vorverzerrer 12, der Bandpaßfilter-Bank 13 und dem A/D-Umsetzer 14 und extrahiert ein Leistungsspektrum X(f) einer ein Geräusch enthaltenden Sprache. Der Buchstabe "f" stellt Zahlen dar, welche einzeln den 15 Kanälen zu geordnet sind.

Ein Mikrophonverstärker 21 verstärkt ein Signal (ein Bezugs eingangssignal), welches von einem Mikrophon abgegeben wird, an welchem das Hintergrundgeräusch aufgenommen wird. Ein Vorverzerrer 22 erhält das Bezugseingangssignal von dem Mi krophonverstärker 21 und hebt eine hochfrequente Komponente mit einer geringen Energie an. Eine Bandpaßfilter-Bank 23 ist aus 15 Bandpaßfiltern gebildet, welche jeweils 15 Kanälen entsprechen, welche durch Aufteilen eines Sprachbereichs in 15 Bändern festgelegt sind. Ferner enthält die Bandpaßfil ter-Bank 23 einen Gleichrichter und ein Tießpaßfilter, das für jeden der 15 Kanäle vorgesehen ist. Ein Analog/Digi tal-(A/D-)Umsetzer 24 multiplext die Ausgangssignale an den 15 Kanälen von der Bandpaßfilter-Bank 23 und erzeugt ein Multi plex-Signal. Ferner fragt der A/D-Umsetzer 24 das Multiplex- Signal jeweils alle 10 ms ab. Ein zweiter Merkmalextrahier block 20 ist aus dem Mikrophonverstärker 21, dem Vorver zerrer 22, der Bandpaßfilter-Bank 23 und dem A/D-Umsetzer 24 gebildet und extrahiert ein Leistungsspektrum N(f), des in der Sprache enthaltenen Geräusches. Der Buchstabe "f" stellt wieder Zahlen dar, welche einzeln den 15 Kanälen zu geordnet sind.

Ein Sprachabschnitt-Detektor 31 erhält zeit-serielle Lei stungsspektren X(f) und N(f), d.h. Zeit-Spektralmuster, welche von den ersten bzw. zweiten Merkmalextrahierblöcken 10 und 20 abgegeben werden. Dann stellt der Sprachabschnitt- Detektor 31 einen Sprachabschnitt für jedes der Frequenzbän der (15 Kanäle) durch die folgenden zwei Schritte fest. Bei dem ersten Schritt wird bestimmt, ob ein Sprachabschnitt (ein Abschnitt auf der Zeitachse, in welchem eine Sprache vorhanden ist) für jedes der Frequenzbänder existiert oder nicht. Beim zweiten Schritt wird ein Sprachabschnitt auf der Fre quenzachse aus dem festgestellten Sprachabschnitt auf der Zeitachse abgeleitet.

Der Sprachabschnitt ist folgendermaßen definiert:

wobei Tha ein vorherbestimmter Schwellenwert ist. In einem Fall, bei welchem zu der Zeit, wenn ein vorstehend festge legter Sprachabschnitt erhalten wird, ein Wert, welcher durch die folgende Formel aus einem Leistungsspektrum X(f) der Geräusche enthaltenden Sprache für jeden zu diesem Zeit punkt erhaltenen Kanal, aus einem Leistungsspektrum N(f) des Geräusches und aus den zwei geräusche-beseitigenden Ver änderlichen k(f) und d(f), welche in einem Geräusche-Beseiti gungsblock 32 gespeichert sind (welcher nachstehend noch im einzelnen beschrieben wird) abgeleitet worden ist, größer oder gleich als ein vorherbestimmter Schwellenwert Th(f) ist, welcher für jeden Kanal festgelegt ist:

X(f)-k(f) · N(f)-d(f) Th(f) (2)

ein Kanal oder Kanäle f, welche der vorstehenden Formel (2) genügen, als ein Sprachband oder -Bänder festgelegt werden, und der restliche Kanal oder Kanäle f als ein Nicht-Sprach band oder -bänder festgelegt werden.

Der Geräusche-Beseitigungsblock 32 weist geräusche-beseiti gende Veränderliche k(f) und d(f) (f=1, 2, . . ., 15) auf, welche für jeden der 15 Kanäle vorgesehen sind. Wenn der Sprachabschnitt-Detektor 31 einen Nicht-Sprachabschnitt auf einem Kanal unterscheidet, werden die geräusche-beseiti genden Veränderlichen k(f) und d(f) durch die folgende For mel aus einem Leistungsspektrum Xn(f) von Geräusche enthal tender Sprache, die auf dem vorstehend angegebenen Kanal zu diesem Zeitpunkt erhalten worden ist, und aus einem Geräusch spektrum Nn(f) des Geräusches festgestellt, so daß der Veränderlichen erneuert werden:

k(f)=((Xn(f)²-C²)/Nn(f)²)^1/2
für Xn(f)<C (3)

k(f)=0 für Xn(f) C (4)

d(f)=Xn(f)-k(f) · Nn(f) (5)

wobei das Suffix "n" einen Nicht-Sprachabschnitt bezeichnet und C größer als null ist (C<0). Andernfalls können Lei stungsspektren Xn(f) und Nn(f) durch Mittelwerte von mehre ren Abfragewerten dargestellt werden, welche sich auf einen Nicht-Sprachabschnitt beziehen. Ein Leistungsspektrum Sn(f) einer Sprache, in der Geräusche beseitigt sind, das zu die sem Zeitpunkt festgelegt worden ist, ist so, daß gilt: Sn(f) = 0.

Wenn andererseits der Sprachabschnitt-Detektor 31 einen Sprachabschnitt auf einem Kanal feststellt, wird ein Lei stungsspektrum Ss(f) einer Sprache, in der Geräusche besei tigt sind, nach der folgenden Formel aus einem Leistungsspek trum Xs(f) einer Geräusche enthaltenden Sprache auf dem vor stehenden Kanal, aus einem Leistungsspektrum Ns(f) des Ge räusches und der geräusche-beseitigenden Veränderlichen k(f) und d(f) berechnet:

Ss(t, f)=Xs(f)-k(f) · Ns(f)-d(f) (6)

wobei das Suffix "s" einen Sprachabschnitt bezeichnet.

Fig. 4 ist ein Flußdiagramm eines Prozesses, welcher von dem Sprachabschnitt-Detektor 31 und von dem Geräusche-Beseiti gungsblock 32 durchgeführt wird und welcher für eine Abfra gezeit durchgeführt wird. Da derselbe Berechnungsalgorithmus in dem Sprachabschnitt-Detektor 31 und dem Geräusche-Beseiti gungsblock 32 verwendet wird, werden deren Prozesse zusammen durchgeführt.

In Fig. 4 werden beim Schritt 100 X(f) und N(f) eingegeben.

Beim Schritt 101 werden

berechnet. Beim Schritt 102 wird f gleich 1 gesetzt. Beim Schritt 103 wird festgestellt, ob ΣX(f)-ΣN(f) Tha ist oder nicht. Wenn das beim Schritt 103 erhaltene Ergebnis ja ist, wird ein Leistungsspektrum S(f) beim Schritt 104 durch die Formel (2) oder (6) berechnet. Beim Schritt 105 wird be stimmt, ob S(f) Th(f) ist oder nicht. Wenn das Ergebnis beim Schritt 105 nein ist, oder wenn das Ergebnis beim Schritt 103 nein ist, wird bei einem Schritt 106 fortgefahren, bei welchem 0 in S(f) geschrieben wird. Beim Schritt 107 werden die vorerwähnten Formeln (3), (4) und (5) berechnet. Dann wird auf den Schritt 108 übergegangen, welcher ebenfalls durchge führt wird, wenn das beim Schritt 105 erhaltene Ergebnis ja ist. Beim Schritt 108 wird f+1 anstelle von f geschrieben, d.h. f wird um +1 inkrementiert. Beim Schritt 109 wird be stimmt, ob f größer als 15 ist oder nicht. Wenn das Ergebnis beim Schritt 109 nein ist, wird auf den Schritt 103 zurückge gangen. Wenn dagegen das beim Schritt 109 erhaltene Ergebnis ja ist, wird auf den Schritt 110 vorgerückt, bei welchem ein Rahmendatenwert S(f) abgegeben wird. Die Berechnung, welche auf den Formel (3) bis (6) beruht, wird mit hohen Geschwin digkeiten durchgeführt, welche mit Hilfe einer logarithmischen und einer exponentiellen Tabelle erreicht worden sind.

Die Beziehung zwischen Xn(f), Nn(f) und k(f) kann durch die Gleichung von Xn(f) ²-k(f) ²×Nn(f) ²=C ² dargestellt wer den. Ein Graph, welcher dieser Gleichung entspricht, ist in Fig. 3 dargestellt. Der der Gleichung entsprechende Graph weist einen Teil einer Hyperbel auf. Wie aus dem Graphen der Fig. 3 ersehen werden kann, werden, wenn ein Hintergrundge räusch einen beachtlichen hohen Pegel hat, d.h. wenn Xn(f), Nn(f)»C ist, die folgenden Gleichungen erhalten:

k(f)=Xn(f)/Nn(f)
d(f)=0 (7)

Genauer gesagt, nähern sich k(f) und d(f) Xn/Nn(f) bzw. 0. Zu diesem Zeitpunkt lautet die Gl. (6) folgendermaßen:

Ss(f)=Xs(f)-k(f) · Ns(f) (8)

Gl. (8) paßt zu dem vorerwähnten, adaptiven Geräuschunter drückungsverfahren. Im Gegensatz hierzu genügen, wenn das Hintergrundgeräusch auf einem niedrigen Pegel liegt, d.h. wenn Xn C genügt ist, den folgenden Gleichungen

k(f)=0
d(f)=Xn(f) (9)

Folglich kann die vorerwähnte Gl. (6) folgendermaßen ge schrieben werden:

Ss(f)=Xs(f)-d(f)=Xs(f)-Xn(f) (10)

Gl. (10) paßt zu dem vorerwähnten spektralen Subtraktionsver fahren.

Es kann auch ein anderer, einen Sprachabschnitt bestimmender Prozeß verwendet werden, welcher in dem Sprachabschnitt- Detektor 31 durchzuführen ist. In einem alternativen Prozeß werden die Werte von ΣX(f) und ΣN(f) statt mittels der Bandfilter 13 und 23 mittels eines Filters erhalten, welcher Signalkomponenten in allen 15 Kanälen durchläßt. Es ist auch möglich, den Wert von ΣN(f) mit einem Koeffizienten zu mul tiplizieren. Auch können die Schwellenwerte Tha und Th(f) entsprechend dem Pegel eines Hintergrundgeräusches geändert werden.

In der vorerwähnten Ausführungsform gemäß der Erfindung werden die Werte der geräusche-beseitigenden Veränderlichen k(f) und d(f) so, wie sie in dem Sprachband während des Sprachabschnitts sind, mit Hilfe der Operationsergebnisse von dem Sprachabschnitt-Detektor 21 und dem Geräusche-Be seitigungsblock 32 erhalten. Andernfalls können die geräusche-beseitigenden Veränderlichen k(f) und d(f) erneu ert werden, wenn ein Verfahren angewendet wird, welches darauf gerichtet ist, eine plötzliche Änderung zu verhin dern, welche größer als vorherbestimmte Werte der geräusche- beseitigenden Veränderlichen ist. Bei dieser Alternative können dann die geräusche-beseitigenden Veränderlichen k(f) und d(f) sogar in dem Sprachabschnitt erneuert werden. Die Tatsache, daß die Phasendifferenz zwischen den Blöcken 10 und 20 (Fig. 1) in der Ausführungsform nicht ausgeglichen wird, ist der Grund dafür, daß Geräuschkomponenten auf der Frequenzbasis beseitigt werden und das Abfragen jeweils alle 10 ms durchgeführt wird, und daß die Phasendifferenz daher vernachlässigbar ist. Natürlich kann zusätzlich auch ein herkömmliches Verfahren zum Ausgleichen der Phasendifferenz angewendet werden.

Die Hyperbel, welche durch die Formel (1) festgelegt ist, kann durch eine Hyperbel ersetzt werden, welche durch die folgende Formel (1) festgelegt ist:

k(f)=((Xn(f)²-C₁²)/(Nn(f)²+C₂²))^1/2 (1′)

wobei C ₁, C ₂<0 und Xn(f)<C ₁ ist. Eine gekrümmte Linie, welche einer Hyperbel ähnlich ist, kann hierfür verwendet werden.

Nunmehr wird anhand von Fig. 2 eine Spracherkennungseinrich tung beschrieben, bei welcher die vorstehend beschriebene Einrichtung zum Beseitigen von Geräuschen gemäß der Erfin dung verwendet ist. In Fig. 2 ist eine Einrichtung 50 zum Beseitigen von Geräuschen so ausgeführt, wie vorstehend be schrieben worden ist, und sie erzeugt ein Spektrum S(f) einer Sprache, in welcher Geräusche beseitigt sind, aus ei nem Spektrum einer Geräusche enthaltenden Sprache und aus einem Spektrum der Geräusche. In einem Block 60 wird ein Eingangsmuster einer Sprache, in welcher Geräusche besei tigt sind, aus der Merkmalsmenge S(f) der eingegebenen Sprache erzeugt, welche von der geräusche-beseitigenden Ein richtung 50 geliefert worden ist. Ein Bezugsmuster-Speicher 70 speichert eine Anzahl Bezugsmuster für eine individuelle Sprache. Ein Erkennungsblock 80 führt eine Spracherkennungs prozedur mit Hilfe des Musters, welches von dem ein Muster erzeugenden Block 60 eingegeben worden ist, und mit Hilfe der Bezugsmuster durch, welche in dem Bezugsmuster-Speicher 70 registriert sind, und erzeugt als das Erkennungsergebnis eines der Bezugsmuster, welches den höchsten Ähnlichkeits grad zu dem eingegebenen Eingangsmuster hat.

Eingangsmuster, welche mittels des Blocks 60 erzeugt worden sind, und die in dem Speicher 70 registrierten Bezugsmuster sind binäre Zeit-Spektralmuster (BTSP), wie sie beschrieben sind in "SPEAKER-INDEPENDENT WORD RECOGNITION USING FUZZY PATTERN MATCHING", J. Fujimoto et al., Fuzzy Sets and Systems 32 (1989) Stn. 181-191, North-Holand, oder in "SPEECH RECOGNITION PROCESSORS USING FUZZY PATTERN MATCHING", T. Ariyoshi et al., IEEE Custom Integrated Circuits Con ference 10.6.1 (1988). Der in dem Erkennungsblock 80 durch geführte Erkennungsprozeß paßt zu einem in den vorstehend an geführten Unterlagen beschriebenen BTSP-Verfahren. Anderer seits können Eingangsmuster erzeugt werden und eine Sprach erkennung auf der Basis einer herkömmlichen DP-Anpassungs prozedur realisiert werden.

In Fig. 5 ist eine Hardware-Struktur der in Fig. 1 oder 2 dargestellten Einrichtung wiedergegeben. Ein Mikroprozessor- System weist einen Mikroprozessor 110, einen Steuersignal- Generator 120, einen Programm-Festwertspeicher (ROM) 130, einen Daten-Randomspeicher 140 und eine Ein/Ausgabe-Einheit (I/O) 150 auf. Der Steuersignal-Generator 120 erzeugt ein Taktsignal, welches an die dargestellten Blöcke zu liefern ist, ein Adressen-Dekodiersignal, ein Unterbrechungssignal, (welches für jeweils 10 ms erzeugt wird) usw. Das heißt, der Steuersignal-Generator 120 erzeugt Signale, welche für her kömmliche Mikroprozessor-Systeme notwendig sind. Wenn die dargestellte Anordnung als die geräusche-beseitigende Ein richtung dient, speichert der Programm-Festwertspeicher 130 Programme, welche die Prozesse durchführen, um nicht nur Sprachabschnitte in einem eingegebenen Sprachsignal festzu stellen, Geräusche aus dem eingegebenen Sprachsignal zu be seitigen, und Eingangsmuster zu erzeugen, sondern auch um das Interface zwischen der erfindungsgemäßen Einrichtung und einer externen Einrichtung zu schaffen. Wenn dagegen das be schriebene System als die Spracherkennungseinrichtung dient, speichert der Programm-Festwertspeicher (ROM) 130 Programme, welche die Prozesse durchführen, Sprachabschnitte in einem ankommenden Sprachsignal feststellen, Geräusche aus dem ein gegebenen Sprachsignal beseitigen und Eingangsmuster erzeu gen, eine eingegebene Sprache erkennen und das Interface zwi schen der erfindungsgemäßen Einrichtung und einer externen Einrichtung schaffen. Der Daten-Randomspeicher (RAM) 140 speichert dann die Bezugsmuster von Sprache, welche für eine Spracherkennung verwendet wird. Die Ein-/Ausgabeein heit 150 behandelt eine Signalverarbeitung, welche auf dem herkömmlichen RS232C-Interface basiert und führt eine Kommu nikation mit einer externen Einrichtung durch.

Mikrophone MIC 1 und MIC 2 sind an den ersten bzw. zweiten Merkmal-Extrahierblöcken 10 und 20 angebracht. Über das Mi krophon MIC 1 wird eine Sprache mit Geräuschen und über das Mikrophon MIC 2 werden Hintergrundgeräusche (Bezugseingang) eingegeben. Jedes der Mikrophone MIC 1 und MIC 2 ist in allen Richtungen in gleicher Weise empfindlich.

Der erste Merkmalextrahierblock 10 hat denselben Aufbau, wie der zweite Merkmalsextrahierblock 20, und ist, wie in Fig. 6 dargestellt, aus herkömmlichen Bauelementen aufgebaut. Der Mikrophonverstärker verstärkt ein Sprachsignal von dem Mi krophon MIC 1 oder MIC 2. Die Verstärkung des Mikrophon-Ver stärkers 11 ist im Hinblick auf die Empfindlichkeit des zu verwendenden Mikrophons entsprechend gewählt. Der Vorver zerrer 12 hebt Signalkomponenten mit Frequenzen, welche hö her als 1,6 kHz sind, um 6 dB/oct. an. Das Bandfilter 16 besteht aus einer Filterbank für 15 Kanäle, welche aus Bandpaßfiltern (BPF) 13-1, bis 13-15, aus Vollwegleichrich tern (RECT) 13-b 1 bis 13-b 15 und Tiefpaßfiltern (LPF) 13-c 1 bis 13-c 15 gebildet ist. Die Kenndaten der Bandpaßfilter (BPF) 13-a 1 bis 13-a 15 sind so gewählt, daß Q = 6 ist, und deren Mittenfrequenzen folgende Frequenzen sind: f ₀₁ = 250, f ₀₂ = 315, f ₀₃ = 397, f ₀₄ = 500, f ₀₅ = 630, f ₀₆ = 794, f ₀₇ = 1000, f ₀₈ = 1260, f ₀₉ = 1590, f ₁₀ = 2000, f ₁₁ = 2520, f ₁₂ = 3180, f ₁₃ = 4000, f ₁₄ = 5040 und f ₁₅ = 6350.

Der A/D-Umsetzer 14 weist einen Multiplexer 14-a, eine Abfrage- und Halteschaltung 14-b und einen A/D-Umsetzer 14-c auf. Entsprechend einem diesbezüglichen Befehl von dem Mikroprozessor 110 (Fig. 5) werden die Ausgangssignale auf den 15 Kanälen von der Bandpaßfilter-Bank 13 aus dem Multiplexer 14-a zugeführt, welcher daraus ein digitales 12 Bit-Signal ableitet.

Gemäß den vorstehend beschriebenen Ausführungsformen der Erfindung wird das Spektrum S(f) einer Sprache, in welcher Geräusche beseitigt sind, mittels der Formel (6) mit Hilfe der durch die Formeln (3) bis (5) dargestellten, geräusche- beseitigenden Veränderlichen k(f) und d(f) aus dem Leistungs spektrum X(f) einer Geräusche enthaltenden Sprache und dem Spektrum N(f) des Geräusches bzw. der Geräusche erhalten. Wenn der Pegel von Hintergrundgeräuschen niedrig ist, wer den mittels der geräusche-beseitigenden Veränderlichen d(f) wirksam Geräuschkomponenten beseitigt. Wenn dagegen der Pe gel von Hintergrundgeräuschen hoch ist, werden mittels der geräusche-beseitigenden Veränderlichen k(f) wirksam Ge räuschkomponenten beseitigt. Wenn die Hintergrundgeräusche- einen mittleren Pegel haben, übernehmen beide geräusche beseitigenden Veränderlichen k(f) und d(f) die Rolle, das Geräusch bzw. die Geräusche zu beseitigen. Folglich ist es möglich, wirksam Geräusche mit einem weiten Pegelbereich und dynamische Hintergrundgeräusche zu beseitigen. Es sollte jedoch beachtet werden, daß der Algorithmus der Erfindung eine geringe Anzahl von Bestimmungsschritten aufweist, so daß eine geringe Programmierung erforderlich ist, und die Betriebsgeschwindigkeit sehr hoch ist.

Gemäß der Erfindung wird die Sprachabschnitt-Bestimmungspro zedur für jedes Band durchgeführt. Wenn ein Sprachabschnitt für ein Band festgestellt wird, werden die geräusche-besei tigenden Veränderlichen k(f) und d(f) bezüglich dieses Ban des erneuert. Folglich kann sogar während eines Sprachab schnitts oder genauer gesagt während einer Zeit, während welcher keine Sprachkomponente in einem bestimmten Band vor handen ist und eine Sprachkomponente in einem anderen Band vorhanden ist, ein Wert der Geräuschkomponente in einem Band vorhergesagt werden, in welchem es keine Sprachkompo nente gibt. Bei dieser Anordnung können somit wirksam dy namische Geräusche beseitigt werden.

Die Spracherkennungseinrichtung gemäß der Erfindung ent hält die vorstehend beschriebene Einrichtung zum Beseiti gen von Geräuschen. Folglich kann Sprache erkannt werden, welche in einer Umgebung ausgesprochen worden ist, in wel cher Hintergrundgeräusche Komponenten haben, welche einen sehr großen Bereich abdecken, oder dynamische Hintergrund geräusche vorliegen. Ferner kann die Geräusche-Beseitigungs prozedur mittels eines sehr geringen Programmieraufwands realisiert werden und mit hohen Geschwindigkeiten durchge führt werden. Folglich kann eine einzige Zentraleinheit (CPU) sowohl mit der Geräusch-Beseitigungssteuerung als auch mit der Spracherkennungssteuerung geschaffen werden. In herkömmlicher Weise werden zwei gesonderte Zentraleinhei ten (CPU) für die Beseitigung von Geräuschen sowie für die Spracherkennung verwendet. Bei der Erfindung ist somit die Hardware verkleinert.

Claims

1. Einrichtung zum Beseitigen von Geräuschen, mit einer ersten Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) ( mit f = 1, 2, . . . n) einer ankommen den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren und mit einer zweiten Merkmalextrahiereinrichtung (20), um individuell eine Merk malsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, gekennzeichnet durch eine geräusch-beseitigen de Einrichtung (32), welche mit den ersten und zweiten Merk malextrahier-Einrichtungen (10, 20) verbunden ist, um eine erste geräusch-beseitigende Veränderliche k(f) und eine zweite geräusch-beseitigende Veränderliche d(f) aus der Merk malsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n-Kanäle abzuleiten und um eine Merkmalsmenge S(f) einer Sprache, in welcher Ge räusche beseitigt sind, entsprechend der folgenden Formel zu erzeugen: S (f) = X(f)-k(f) · N(f)-d(f).

2. Einrichtung nach Anspruch 1, dadurch gekenn zeichnet, daß der Wert f n Frequenzbändern auf einer Frequenzachse entspricht.

3. Einrichtung nach den Ansprüchen 1 und 2, gekenn zeichnet durch eine Feststelleinrichtung (31), um einen Sprach abschnitt, in welchem eine Sprachkomponente der ankommen den Sprache vorhanden ist, und einen Nicht-Sprachabschnitt durch Bezugnahme auf die Merkmalsmenge X(f) der ankommen den Sprache, welche Geräusche enthält, und unter Bezugnahme auf die Merkmalsmenge N(f) der Geräusche festzustellen, wo bei die geräusche-beseitigende Einrichtung (32) die erste geräusche-beseitigende Veränderliche k(f) und die zweite geräusche-beseitigende Veränderliche d(f) aus der Merkmals menge X(f), welche die ankommende Sprache enthält, die eine erste Geräuschkomponente in dem Nicht-Sprachenabschnitt ent hält, und aus der Merkmalsmenge N(f) der ersten Rauschkom ponente ableitet und die Merkmalsmenge S(f) der ankommenden Sprache, die von Geräuschen beseitigt ist, aus der Merk malsmenge X(f) der ankommenden Sprache, welche eine zweite Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der zweiten Geräuschkomponente ent sprechend der Formel erzeugt.

4. Einrichtung nach Anspruch 1, dadurch gekenn zeichnet, daß die erste geräusche-beseitigende Ver änderliche k(f), die zweite geräusche-beseitigende Verän derliche d(f), die Merkmalsmenge X(f) der ankommenden, die Geräusche enthaltenden Sprache und die Merkmalsmenge N(f) der Geräusche eine Beziehung haben, in welcher die erste geräusche-beseitigende Veränderliche k(f) null oder sehr viel kleiner als 1 ist, wenn eine der Merkmalsmengen X(f) und N(f) kleiner als eine vorherbestimmte Konstante ist, und die zweite geräusche-beseitigende Veränderliche d(f) null oder sehr viel kleiner als die Merkmalsmenge X(f), welche Geräusche enthält, welche zu dieser Zeit in der an kommenden Sprache enthalten sind, oder als die Merkmalsmenge N(f) der zu dieser Zeit enthaltenen Geräusche ist.

5. Einrichtung zum Beseitigen von Geräuschen, mit einer ersten Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) einer ankom menden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m Gruppen (2m n) unterteilt sind, und mit einer zwei ten Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu ex trahieren, gekennzeichnet durch eine Sprachabschnitt-Fühleinrichtung (31), welche mit dem ersten und zweiten Merkmal-Extrahiereinrichtungen verbunden ist, um für jede der m Gruppen einen Sprachabschnitt fest zustellen, in welchem eine Sprachkomponente der ankommenden Sprache durch Bezugnahme auf die Merkmalsmenge X(f) der ankommenden Sprache, welche eine Geräuschkomponente enthält, die in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmalsmenge N(f) der Geräusch komponente vorhanden ist, und durch eine geräusche-beseitigende Einrichtung (32), welche mit der ersten Merkmalextrahiereinrichtung (10), mit der zwei ten Merkmalextrahiereinrichtung (20) und der Sprachabschnitt- Fühleinrichtung (31) verbunden ist, um eine Merkmalsmenge S(f) einer ankommenden Sprache, in welcher Geräusche besei tigt sind, aus der Merkmalsmenge X(f) der ankommenden Spra che, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkompo nente herzuleiten.

6. Spracherkennungseinrichtung mit einer Einrichtung (50) zum Beseitigen von Geräuschen, um Geräusche, welche in ei ner ankommenden Sprache enthalten sind, zu beseitigen und um eine Sprache, in welcher Geräusche beseitigt sind, abzuge ben, mit einer Eingangsmuster erzeugenden Einrichtung (60), welche mit der Einrichtung zum Beseitigen von Geräuschen verbunden ist, um ein Eingangsmuster der ankommenden Sprache aus der Sprache, in welcher Geräusche beseitigt sind, zu er zeugen, mit einer Bezugsmuster-Speichereinrichtung (70) zum Speichern von Bezugsmustern, und mit einer Spracherkennungs einrichtung (80), welche mit der Eingangsmuster erzeugenden Einrichtung (60) und der Bezugsmuster-Speichereinrichtung (70) verbunden ist, um das Eingangsmuster von der Eingangs muster erzeugenden Einrichtung mit den Bezugsmustern zu ver gleichen, und um eines der Bezugsmuster abzugeben, welches den höchsten Ähnlichkeitsgrad mit dem Eingangsmuster hat, dadurch gekennzeichnet, daß die Einrichtung (50) zum Beseitigen von Geräuschen aufweist
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommen den, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren, und
eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 20) verbunden ist, um eine erste geräusche-beseitigende Verän derliche k(f) und eine zweite geräusche-beseitigende Verän derliche d(f) aus der Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache für jeden der n-Kanäle und aus der Merkmalsmenge N(f) der Geräusche für jeden der n- Kanäle herzuleiten, und um eine Merkmalsmenge X(f) einer ankommenden Sprache, in welcher Geräusche beseitigt sind, entsprechend der nachstehenden Formel zu erzeugen: S(f) = X(f)-k(f)×N(f)-d(f).

7. Spracherkennungseinrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die Größe f n Frequenz bändern auf einer Frequenzachse entspricht.

8. Spracherkennungseinrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Spracherkennungsein richtung eine Sprachabschnitt-Fühleinrichtung (31) aufweist, um einen Sprachabschnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, und um einen Nicht- Sprachabschnitt unter Bezugnahme auf die Merkmalsmenge X(f) der ankommenden, Geräusche enthaltenden Sprache und unter Bezugnahme auf die Merkmalsmenge N(f) der Geräusche festzu stellen, und daß die geräusche-beseitigende Einrichtung (32) die erste geräusche-beseitigende Veränderliche k(f) und die zweite geräusche-beseitigende Veränderliche d(f) aus der Merkmals menge X(f), welche die ankommende Sprache enthält, welche eine erste Geräuschkomponente in dem Nicht-Spracheabschnitt enthält, und aus der Merkmalsmenge N(f) der ersten Geräusch komponente ableitet und die Merkmalsmenge S(f) der ankommen den Sprache, in welcher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche eine zweite Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der zweiten Geräuschkompo nente entsprechend der Formel erzeugt.

9. Spracherkennungseinrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die erste geräusche-be seitigende Veränderliche k(f), die zweite geräusche-besei tigende Veränderliche d(f), die Merkmalsmenge X(f) der an kommenden, Geräusche enthaltenden Sprache und die Merkmals menge N(f) der Geräusche eine Beziehung haben, in welcher die erste geräusche-beseitigende Veränderliche k(f) null oder sehr viel kleiner als 1 ist, wenn eine der Merkmals mengen X(f) und N(f) kleiner als eine vorherbestimmte Kon stante ist, und die zweite geräusche-beseitigende Veränder liche d(f) null oder sehr viel kleiner als die Merkmalsmenge X(f), welche Geräusche enthält, die in der ankommenden Spra che zu diesem Zeitpunkt enthalten sind, oder als die Merk malsmenge N(f) der zu diesem Zeitpunkt erhaltenen Geräusche ist.

10. Spracherkennungseinrichtung, mit einer Einrichtung (50) zum Beseitigen von Geräuschen, um Geräusche, die in einer ankommenden Sprache enthalten sind, daraus zu entfernen und eine Sprache, in welcher Geräusche beseitigt sind, abzugeben, mit einer Eingangsmuster erzeugenden Einrichtung (60), wel che mit der Einrichtung zum Beseitigen von Geräuschen ver bunden ist, um ein Eingangsmuster der ankommenden Sprache aus der Sprache, in welcher die Geräuse beseitigt sind, zu erzeugen, mit einer Bezugsmuster-Speichereinrichtung (70) zum Speichern von Bezugsmustern, und mit einer Spracherken nungseinrichtung (80), welche mit der Eingangsmuster erzeu genden Einrichtung und der Bezugsmuster-Speichereinrichtung verbunden ist, um die Eingangsmuster von der Eingangsmuster erzeugenden Einrichtung mit den Bezugsmustern zu vergleichen und um eines der Bezugsmuster abzugeben, welches den höch sten Ähnlichkeitsgrad mit dem Eingangsmuster hat, dadurch gekennzeichnet, daß die Einrichtung (50) zum Beseitigen von Geräuschen aufweist:
eine erste Merkmalextrahiereinrichtung (10), um individuell eine Merkmalsmenge X(f) (mit f = 1, 2, . . ., n) der ankommenden, Geräusche enthaltenden Sprache für n-Kanäle (wobei n eine ganze Zahl ist) zu extrahieren, wobei die n-Kanäle in m- Gruppen (mit 2 m n) unterteilt sind;
eine zweite Merkmalextrahiereinrichtung (20), um individuell eine Merkmalsmenge N(f) der Geräusche für die n-Kanäle zu extrahieren;
eine Sprachabschnitt-Fühleinrichtung (31), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) verbunden ist, um für jede der m-Gruppen einen Sprachab schnitt, in welchem eine Sprachkomponente der ankommenden Sprache vorhanden ist, durch Bezugnahme auf die Merkmals menge X(f) der ankommenden Sprache, welche eine Geräusch komponente enthält, welche in einer entsprechenden der m Gruppen enthalten ist, und durch Bezugnahme auf die Merkmal smenge N(f) der Geräuschkomponente festzustellen, und eine geräusche-beseitigende Einrichtung (32), welche mit den ersten und zweiten Merkmalextrahiereinrichtungen (10, 12) und der Sprachabschnitt-Fühleinrichtung (31) verbunden ist, um eine Merkmalsgröße S(f) einer ankommenden Sprache, in wel cher Geräusche beseitigt sind, aus der Merkmalsmenge X(f) der ankommenden Sprache, welche die Geräuschkomponente in dem Sprachabschnitt enthält, und aus der Merkmalsmenge N(f) der Geräuschkomponente abzuleiten.