DE69130687T2 - Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal - Google Patents

Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal

Info

Publication number
DE69130687T2
DE69130687T2 DE69130687T DE69130687T DE69130687T2 DE 69130687 T2 DE69130687 T2 DE 69130687T2 DE 69130687 T DE69130687 T DE 69130687T DE 69130687 T DE69130687 T DE 69130687T DE 69130687 T2 DE69130687 T2 DE 69130687T2
Authority
DE
Germany
Prior art keywords
speech
noise
section
speech signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69130687T
Other languages
English (en)
Other versions
DE69130687D1 (de
Inventor
Joji Kane
Akira Nohara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69130687D1 publication Critical patent/DE69130687D1/de
Application granted granted Critical
Publication of DE69130687T2 publication Critical patent/DE69130687T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

    HINTERGRUND DER ERFINDUNG 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Signalverarbeitungsvorrichtung mit Bandteilungsmitteln zum Ausführen eines Bandteilungsprozesses einschließlich einer Fouriertransformation für ein eingegebenes Sprachsignal, und zum Ausgeben von Spektralsignalen mehrerer Kanäle; Cepstrumanalysemitteln zum Ausführen eines Cepstrumanalyseprozesses mit den Spektralsignalen der mehreren Kanäle, die von den Bandteilungsmitteln ausgegeben wurden, und zum Ausgeben des Cepstrumanalyseergebnisses.
  • 2. Beschreibung des Standes der Technik
  • In einer herkömmlichen Spracherkennungsvorrichtung wird ein Sprachsignal aus einem verrauschten Sprachsignal durch einen Filter gefiltert, und dann wird Sprache durch ein Musterübereinstimmungsverfahren erkannt (siehe beispielsweise die japanische Patentanmeldung (JP-A) Nr. 59- 121099/1984 und die japanische Patentanmeldung (JP-A) Nr. 62- 179000/1987). In den herkömmlichen Spracherkennungsvorrichtungen dieses Typs ist jedoch die Erkennungsrate der Erkennung von Sprache relativ niedrig, da ein Sprachsignal durch den Filter gefiltert wird, und ein in dem Sprachsignal enthaltenes Rauschen nicht vollständig aus dem verrauschten Sprachsignal entfernt werden kann. Insbesondere besteht das Problem, daß die Erkennungsrate extrem niedrig ist, wenn ein Sprachsignal, welches erhebliches Rauschen enthält, durch die herkömmliche Spracherkennungsvorrichtung erkannt wird.
  • Fig. 22 zeigt eine herkömmliche Sprachsignalverarbeitungsvorrichtung.
  • Gemäß Fig. 22 enthält die herkömmliche Spracherkennungsvorrichtung einen Spracherfassungsabschnitt 451 zum Erfassen eines Sprachsignalintervalls von einem eingegebenen verrauschten Sprachsignal, einen Rauschintervallbeurteilungsabschnitt 452 zum Erfassen eines Rauschintervalls basierend auf dem Sprachsignalintervall, welches durch den Spracherfassungsabschnitt 451 erfaßt wurde, ein Dämpfungsregler 543 zum Erzeugen eines Regelsignals zum Dämpfen eines verrauschten Sprachsignals für das erfaßte Rauschintervall in Antwort das durch den Rauschintervallbeurteilungsabschnitt 452 erfaßte Rauschintervall, und ein Dämpfungsabschnitt 454 zum Dämpfen des eingegebenen, verrauschten Sprachsignals für das erfaßte Rauschintervall gemäß dem von dem Dämpfungsregler 453 ausgegebenen Dämpfungsregelsignal.
  • In der in der Fig. 22 dargestellten, herkömmlichen Sprachsignalverarbeitungsvorrichtung wird ein Sprachsignalintervall durch den Spracherfassungsabschnitt 451 erfaßt, und der Rauschintervallbeurteilungsabschnitt 452 erfaßt ein Rauschintervall durch invertieren des durch den Spracherfassungsabschnitt 451 erfaßten Sprachsignalintervalls. Darüber hinaus erzeugt der Dämpfungsregler 453 das Dämpfungsregelsignal für ein durch den Rauschintervallbeurteilungsabschnitt 452 erfaßtes Rauschintervall, und dann wird durch den Dämpfungsabschnitt 454 ein eingegebenes Rauschsprachsignal nur für das erfaßte Rauschintervall gedämpft.
  • In der herkömmlichen Sprachsignalverarbeitungsvorrichtung dieses Typs wird jedoch Rauschen nicht ausreichend aus einem verrauschten Sprachsignal unterdrückt, wobei weiterhin eine Erfassungsrate des Erfassens von Sprache extrem klein ist.
  • Aus der US-A 4461025 ist eine Schaltung zum Unterdrücken von Hintergrundrauschen kontinuierlicher Natur bekannt, während Sprachsignale, oder mit transienten, temporären Qualitäten der Sprache verstärkt werden, einschließlich einem Signalvervielfacher, welcher das zusammengesetzte Audiosignal zusammen mit einem Regelsignal empfängt, welches nur vorhanden ist, wenn die Sprachkomponente des Audiosignals vorhanden ist.
  • Darüber hinaus ist aus der US-A-4628529 ein verbessertes Rauschunterdrückungssystem bekannt, welches Sprachqualität und Verstärkung liefert, von Sprachplus Rauschsignalen, die an dem Eingang zur Verfügung stehen, um ein sauberes Sprachsignal an dem Ausgang durch spektrale Verstärkungsmodifikation zu erzeugen. Das offenbarte Rauschunterdrückungssystem schließt einen Hintergrundabschätzer ein, welcher eine Abschätzung der spektralen Dichte der Hintergrundrauschen - Energie basierend auf vorher verarbeiteter Sprache erzeugt und abspeichert, wie durch das erfaßte Minimum des nachfolgend verarbeiteten Sprachenergieniveaus bestimmt. Diese nachfolgend verarbeitete Sprache kann direkt aus dem Ausgang des Rauschunterdrückungssystem erhalten werden, oder kann durch Multiplizieren der zuvor verarbeitenen Sprachenergie durch die Kanalverstärkungswerte des Modifikationssignals simuliert werden.
  • Darüber hinaus ist aus der EP-A-0123349 eine Vorrichtung zum Unterscheiden zwischen Sprache und beispielsweise Daten- und Rauschsignalen bekannt, beispielsweise zur Verwendung in einer nicht sprachlichen Rauschsperrenschaltung in einem Radioempfänger unter Verwendung der Tatsache, daß das Autokorrelogramm eines Sprachsignalspitzen zeigt, die entlang der Verzögerungsachse rückwärts und vorwärts wandern, wobei dies für die Autokorrelogramme der meisten anderen Signale nicht der Fall ist.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Aufgabe der vorliegenden Erfindung ist es, eine Signalsverarbeitungsvorrichtung zur Verfügung zu stellen, welche in der Lage ist, ein Sprachsignal aus einem eingegebenen verrauschten Sprachsignal herauszuschneiden, und zwar genauer verglichen mit den herkömmlichen Signalverarbeitungsvorrichtungen.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist es, eine Signalverarbeitungsvorrichtung zur Verfügung zu stellen, welche in der Lage ist, Rauschen aus einem eingegebenen Sprachsignal zu löschen, und ein Sprachsignal herauszuschneiden, in Antwort auf das rauschunterdrückte Sprachsignal, und zwar genauer als es mit herkömmlichen Signalverarbeitungsvorrichtungen möglich ist.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist es, eine Signalverarbeitungsvorrichtung zur Verfügung zu stellen, welche in der Lage ist, Rauschen in einen eingegebenen, verrauschten Sprachsignal effektiv zu unterdrücken.
  • Noch eine weitere Aufgabe der vorliegenden Erfindung ist es, eine Signalverarbeitungsvorrichtung zur Verfügung zu stellen, welche in der Lage ist, Rauschen in einem eingegebenen, verrauschten Sprachsignal zu löschen, und weiterhin Rauschen in den rauschunterdrückten Sprachsignal zu dämpfen.
  • Um die zuvor erwähnten Aufgaben zu lösen, wird gemäß einem Aspekt der vorliegenden Erfindung zur Verfügung gestellt eine Signalverarbeitungsvorrichtung, die aufweist:
  • Bandteilungsmittel zum Ausführen eines Bandteilungsprozesses einschließlich einer Fouriertransformation für ein eingegebenes Sprachsignal, und zum Ausgeben von Spektralsignalen mehrerer Kanäle;
  • Cepstrumanalysemittel zum Ausführen eines Cepstrumanalyseprozesses mit den Spektralsignalen der mehreren Kanäle, die von den Bandteilungsmitteln ausgegeben wurden, und zum Ausgeben des Cepstrumanalyseergebnisses;
  • Sprachbeurteilungsmittel zum Erfassen eines Sprachsignalintervalls des eingegebenen, verrauschten Sprachsignals in Antwort auf das Cepstrumanalyseergebnis, welches von den Cepstrumanalysemitteln ausgegeben wurde, und zum Ausgeben des erfaßten Sprachsignalintervalls; und
  • Sprachausschneidemittel zum Ausschneiden eines Sprachsignals aus dem eingegebenen, verrauschten Sprachsignal gemäß dem von den Sprachbeurteilungsmitteln ausgegebenen, erfaßten Sprachsignalintervalls, und zum Ausgeben des ausgeschnittenen Sprachsignals.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung enthält die Signalverarbeitungsvorrichtung weiterhin:
  • Eigenschaftsextraktionsmittel zum Extrahieren einer Eigenschaft einer Sprache von dem ausgeschnittenen Sprachsignal, welches von den Sprachausschneidemitteln ausgegeben wurde, und zum Ausgeben der extrahierten Eigenschaft der Sprache;
  • Speichermittel, um vorher Standardeigenschaften von Sprachen mehrerer Sprecher zu speichern; und
  • Eigenschaftsvergleichsmittel zum Wiedererkennen einer Sprache durch Vergleichen der extrahierten Eigenschaften der Sprache, welche von den Eigenschaftsextraktionsmitteln ausgegeben wurden, mitden Standardeigenschaften der Sprachen, die in den Speichermitteln gespeichert sind.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird zur Verfügung gestellt eine Signalverarbeitungsvorrichtung mit:
  • Spracherfassungsmitteln zum Erfassen eines Sprachsignals in Antwort auf ein eingegebenes, verrauschtes Sprachsignal, und zum Ausgeben des erfaßten Sprachsignals;
  • Rauschvorhersagemitteln zum Vorhersagen eines Rauschens von Sprache in Antwort auf das eingegebene, verrauschte Sprachsignal gemäß dem von den Spracherfassungsmitteln ausgegebenen, erfaßten Sprachsignals, und zum Ausgeben des vorhergesagten Rauschens;
  • Unterdrückungsmitteln zum Unterdrücken des von den Rauschvorhersagemitteln aufgegebenen, vorhergesagten Rauschens aus dem eingegebenen, verrauschten Sprachsignal, und zum Ausgeben des rauschunterdrückten Sprachsignals; und
  • Sprachausschneidemitteln zum Ausschneiden eines Sprachsignals aus dem rauschunterdrückten Sprachsignal, welches von den Unterdrückungsmitteln aufgegebenen wurde, gemäß dem von den Spracherfassungsmitteln ausgegebenen, erfaßten Sprachsignals.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird zur Verfügung gestellt eine Signalverarbeitungsvorrichtung, die aufweist:
  • Bandteilungsmittel zum Ausführen eines Bandteilungsprozesses, einschließlich einer Fouriertransformation für ein eingegebenes Sprachsignal, und zum Ausgeben von Spektralsignalen mehrerer Kanäle;
  • Cepstrumanalysemittel zum Ausführen eines Cepstrumanalyseprozesses für die Cepstrumsignale mehrerer Kanäle, die von den Bandteilungsmitteln ausgegeben wurden, und zum Ausgeben des Cepstrumanalyseergebnisses;
  • Sprachbeurteilungsmittel zum Erfassen eines Sprachsignalintervalls in Antwort auf das von den Cepstrumanalysemitteln ausgegebenen Cepstrumanalyseergebnisses, und zum Ausgeben des erfaßten Sprachsignalintervalls;
  • Rauschintervallbeurteilungsmittel zum Erfassen eines Rauschintervalls in Antwort auf das von den Sprachbeurteilungsmitteln ausgegebenen, erfaßten Sprachsignalintervalls; und
  • Dämpfungsmittel (Mutingmeans) zum Dämpfen des eingegebenen, verrauschten Signals nur für das von den Rauschintervallbeurteilungsmitteln ausgegebenen, erfaßten, Rauschintervall gemäß dem von den Rauschintervallbeurteilungsmitteln ausgegebenen, erfaßten Rauschintervall und zum Ausgeben des nur für das erfaßte Rauschintervall gedämpften Sprachsignals.
  • Gemäß noch einer weiteren Ausführungsform der vorliegenden Erfindung wird zur Verfügung gestellt eine Signalverarbeitungsvorrichtung, die aufweist:
  • Speichermittel zum Speichern von Eigenschaften von Sprachen von verschiedenen Sprechern im Vorwege;
  • Spracherkennungsmittel zum Erfassen eines Sprachsignals in Antwort auf ein eingegebenes, verrauschtes Sprachsignal, und zum Ausgeben des erfaßten Sprachsignalintervalls;
  • Mittel zum Bestimmen der maximalen Ähnlichkeit zum Erfassen einer Art einer Sprache durch vergleichen der erfaßten Eigenschaft des von den Spracherfassungsmitteln ausgegebenen Sprachsignals, mit den Eigenschaften der Sprachen der mehreren Sprecher, die in den Speichermitteln abgespeichert sind, und zum Ausgeben der erfaßten Art der Sprache;
  • Rauschintervallbeurteilungsmittel zum Erfassen eines Rauschintervalls in Antwort auf die erfaßte Art der von den Maximale-Ähnlichkeits-Abschätzungsmitteln ausgegebenen Sprache und dem von den Spracherfassungsmitteln ausgegebenen, erfaßten Sprachsignalintervalls, und zum Ausgeben des erfaßten Rauschintervalls; und
  • Dämpfungsmittel zum Dämpfen des eingegebenen, verrauschten Sprachsignals nur für das von den Rauschintervallbeurteilungsmitteln ausgegebene, erfaßte Rauschintervall, gemäß den von den Rauschintervallbeurteilungsmitteln ausgegebenen, erfaßten Rauschintervall, und zum Ausgeben des nur für das erfaßte Rauschintervall und gedämpften Sprachsignals.
  • Gemäß nach einem weiteren Aspekt der vorliegenden Erfindung wird zur Verfügung gestellt eine Signalverarbeitungsvorrichtung, die aufweist:
  • Spracherfassungsmittel zum Erfassen eines Sprachsignalintervalls in Antwort auf ein eingegebenes, verrauschtes Sprachsignal, und zum Ausgeben des erfaßten Sprachsignalintervalls;
  • Rauschintervallbeurteilungsmittel zum Erfassen eines Rauschintervalls in Antwort auf das von den Spracherkennungsmitteln ausgegebenen, erfaßten Sprachsignalintervalls, und zum Ausgeben des erfaßten Rauschintervalls;
  • Rauschvorhersagemittel zum Vorhersagen eines Rauschzustandes des eingegebenen, verrauschten Sprachsignalintervalls in Antwort auf das von den Rauschintervallbeurteilungsmitteln ausgegebenen, erfaßten Rauschintervalls, und zum Ausgeben des vorhergesagten Rauschens;
  • Unterdrückungsmittel zum Unterdrücken des von den Rauschvorhersagemitteln ausgegebenen, vorhergesagten Rauschens in dem eingegebenen verrauschten Sprachsignal, und zum Ausgeben eines rauschunterdrückten Sprachsignals; und
  • Dämpfungsmittel zum Dämpfen des rauschunterdrückten Sprachsignals, welches von den Unterdrückungsmitteln ausgegeben wurde, nur für das von den Rauschintervallbeurteilungsmitteln ausgegebene, erfaßte Rauschintervall, mit einem vorbestimmten Dämpfungswert gemäß dem erfaßten, von den Rauschintervallbeurteilungsmittel ausgegebenen Rauschintervall, und zum Ausgeben des nur für das erfaßte Rauschintervall gedämpften Sprachsignals.
  • Gemäß noch einer weiteren Ausführungsform der vorliegenden Erfindung wird zur Verfügung gestellt eine Signalverarbeitungsvorrichtung, die aufweist:
  • Bandteilungsmittel zum Ausführen eines Bandteilungsprozesses, einschließlich einer Fouriertransformation, für ein eingegebenes Sprachsignal, und zum Ausgeben von Spektralsignalen mehrerer Kanäle;
  • Cepstrumanalysemitteln zum Ausführen eines Cepstrumanalyseprozesses für die Cepstrumsignale mehrerer Kanäle, die aus den Bandteilungsmitteln ausgegeben wurden, und zum Ausgeben des Cepstrumanalyseergebnisses;
  • Sprachbeurteilungsmittel zum Erfassen eines Sprachsignalintervalls in Antwort auf das Cepstrumanalyseergebnis, welches von den Cepstrumanalysemitteln ausgegeben wurde, und zum Ausgeben des erfaßten Sprachsignalintervalls;
  • Rauschintervallberurteilungsmittel zum Erfassen eines Rauschintervalls in Antwort auf das erfaßte Sprachsignalintervall, welches von den Sprachbeurteilungsmitteln ausgegeben wurde, und zum Ausgeben des erfaßten Rauschintervalls;
  • Rauschvorhersagemittel, zum Vorhersagen von Rauschzuständen der Spektralsignale mehrerer Kanäle, die von dem Bandteilungsmitteln ausgegeben wurden, in Antwort auf das erfaßte Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln ausgegeben wurde, und zum Ausgeben der vorhergesagten Rauschzustände mehrerer Kanäle;
  • Unterdrückungsmittel zum Unterdrücken der vorhergesagten Rauschzustände mehrerer Kanäle, die von den Rauschunterdrückungsmitteln in den Spektralsignalen mehrerer Kanäle, die von den Bandteilungsmitteln ausgegeben wurden, ausgegeben wurde, und zum Ausgeben der rauschunterdrückten Spektralsignale mehrerer Kanäle;
  • Bandkombiniermittel zum Kombinieren der rauschunterdrückten Spektralsignale mehrerer Kanäle zum inversen Fouriertransformieren der kombinierten Spektralsignale in ein transformiertes Sprachsignal, und zum Ausgeben des transformierten Sprachsignals; und
  • Dämpfungsmittel zum Dämpfen des transformierten Sprachsignals, welches von den Bandkombiniermitteln ausgegeben wurde, nur für das von den Rauschintervallbeurteilungsmitteln ausgegebene, erfaßte Rauschintervall, mit einem vorbestimmten Dämpfungswert gemäß den erfaßten Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln ausgegeben wurde, und zum Ausgeben des nur für das erfaßte Rauschintervall gedämpften Sprachsignals.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Diese und andere Aufgaben und Eigenschaften der vorliegenden Erfindung werden aus der folgenden Beschreibung klar, die in Verbindung mit den bevorzugten Ausführungsformen derselben mit Bezug auf die begleitenden Zeichnungen vorgenommen wird, in denen gleiche Teile mit gleichen Bezugszeichen bezeichnet sind, und in denen:
  • Fig. 1 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer ersten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 2 ein schematisches Blockdiagramm ist, welches eine Spracherkennungsvorrichtung einer zweiten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 3 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer bevorzugten Ausführungsform gemäß der vorliegenden Erfindung in dem Fall einer konkreten Darstellung eines Sprachbeurteilungsabschnittes darstellt;
  • Fig. 4 ein schematisches Blockdiagramm ist, welches eine Spracherkennungsvorrichtung einer dritten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 5a und 5b Graphen sind, die eine Cepstrumanaylse darstellen, die in den bevorzugten Ausführungsformen verwendet wird;
  • Fig. 6 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer vierten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 7 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer fünften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 8 ein schematisches Blockdiagramm ist, welches eine Spracherkennungsvorrichtung einer sechsten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 9 ein schematisches Blockdiagramm ist, welches eine Spracherkennungsvorrichtung einer siebten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 10 ein Diagramm ist, welches Wellenformen zum Erklären eines Rauschunterdrückungsverfahrens auf einer Zeitachse darstellt, daß in den bevorzugten Ausführungsformen verwendet wird;
  • Fig. 11 ein Graph ist, zum Darstellen eines Rauschvorhersageverfahrens, welches in den bevorzugten Ausführungsformen verwendet wird;
  • Fig. 12 ein Diagramm ist, welches Wellenformen darstellt, zum Erklären eines weiteren Rauschunterdrückungsverfahrens auf einer Frequenzachse, welches in den bevorzugten Ausführungsformen verwendet wird;
  • Fig. 13 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer achten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 14 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer neunten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 15 ein schematisches Blockdiagramm ist, welche eine Signalverarbeitungsvorrichtung einer bevorzugten Ausführungsform in dem Fall der konkreten Darstellung eines Sprachbeurteilungsabschnittes darstellt;
  • Fig. 16 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer zehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 17 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer elften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 18 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer zwölften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 19 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer dreizehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 20 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer konkreten Ausführungsform einer dreizehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt;
  • Fig. 21 ein schematisches Blockdiagramm ist, welches eine Signalverarbeitungsvorrichtung einer vierzehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt; und
  • Fig. 22 ein schematisches Blockdiagramm ist, welches eine herkömmliche Signalverarbeitungsvorrichtung darstellt.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die bevorzugten Ausführungsformen gemäß der vorliegenden Erfindung werden unten mit Bezug auf die anliegenden Zeichnungen beschrieben.
  • Die erste bevorzugte Ausführungsform
  • Fig. 1 zeigt eine Signalverarbeitungsvorrichtung einer ersten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung.
  • Gemäß Fig. 1 weist die Signalverarbeitungsvorrichtung der ersten bevorzugten Ausführungsform einen Bandteilungsabschnitt 1, einen Cepstrumanalyseabschnitt 2, einen Sprachbeurteilungsabschnitt 3, und einen Sprachausschneideabschnitt 4 auf.
  • Der Bandteilungsabschnitt 1 enthält einen Analog-/Digitalwandler zum Umwandeln eines eingegebenen, verrauschten, analogen Sprachsignals in ein digitales Sprachsignal, einen Fouriertransformierer zum Fouriertransformieren des umgewandelten, digitalen Sprachsignals in ein Spektralsignal, und einen Bandteiler zum Teilen des transformierten Spektralsignals in Spektralsignale mehrerer Kanäle, wobei die geteilten Spektralsignale mehrerer Kanäle jeweils vor bestimmte Bandbreiten und vorbestimmte Bänder aufweisen, die sich von einander unterscheiden.
  • Der Cepstrumanalyseabschnitt 2 führt eine Cepstrumanalyse für die Spektralsignale mehrerer Kanäle aus, die von dem Bandteilungsabschnitt 1 eingegeben wurden, um so ein Cepstrum zu erhalten, und gibt das erhaltene Cepstrum aus. In der Cepstrumanalyse hört ein Logarithmus jedes des Spektralsignale mehrerer Kanäle berechnet, und der berechnete Logarithmus wird invers fouriertransformiert, wodurch ein Cepstrum von jedem der Spektralsignale mehrerer Kanäle erhalten wird.
  • Der Sprachbeurteilungsabschnitt 3 erfaßt ein Sprachsignalintervall in Antwort auf das von dem Cepstrumanalyseabschnitt 2 ausgegebene Cepstrum. Konkret enthält, wie in der Fig. 3 dargestellt ist, der Sprachbeurteilungsabschnitt 3 einen Spitzenerfassungsabschnitt 31, einen Durchschnittswertberechnungsabschnitt 32, und einen Sprachbeurteilungsschaltkreis 33. Der Spitzenerfassungsabschnitt 31 erfaßt eine Spitze oder einen Pitsch in den von den Cepstrumanalyseabschnitt 2 erhaltenen Cepstrum, und gibt die erfaßte Spitze an den Sprachbeurteilungsschaltkreis 33 aus. Auf der anderen Seite berechnet der Durchschnittswertberechnungsabschnitt 32 einen Durchschnittswert entsprechender Werte des Cepstrums auf einer Frequenz, die durch den Cepstrumanalyseabschnitt 2 erhalten wurde, und gibt den berechneten Durchschnittswert an den Sprachbeurteilungsschaltkreis 33 aus. Darüber hinaus erfaßt der Sprachbeurteilungsschaltkreis 33 ein Sprachsignalintervall in Antwort auf die von dem Spitzenerfassungsabschnitt 31 erfaßte Spitze, und den von dem Durchschnittswertberechnungsabschnitt 32 ausgegebenen Durchschnittswert des Cepstrums. Beispielsweise erfaßt der Sprachbeurteilungsschaltkreis 33 sicher ein Sprachsignalintervall durch erfassen eines Vokals und eines Konsonanten einer Sprache des eingegebenen, verrauschten Sprachsignals in Antwort auf die eingegebene Spitze und den Durchschnittswert desselben. Wenn der Sprachbeurteilungsschaltkreis 33 ein Signal empfängt, welches anzeigt, daß eine Spitze erfaßt wurde, dann beurteilt nämlich der Sprachbeurteilungsschaltkreis 33 das eingegebene, verrauschte Sprachsignal derart, daß es eine Sprache mit einem Vokal enthält, oder das verrauschte Sprachsignal eines Vokals wird in die Signalverarbeitungsvorrichtung eingegeben. Auf der anderen Seite wird beispielsweise, wenn ein Konsonant einer Sprache erfaßt wird, von dem Sprachbeurteilungsschaltkreis 33, beurteilt, daß das eingegebene, verrauschte Sprachsignal eine Sprache mit einem Konsonanten enthält, oder das verrauschte Sprachsignal eines Konsonanten wird in die Signalverarbeitungsvorrichtung eingegeben, wenn der Durchschnittswert des von dem Durchschnittswertberechnungsabschnitt 32 in den Sprachbeurteilungsschaltkreis 33 eingegebenen Cepstrums größer ist als der vorbestimmte Treshold-Wert, oder, wenn eine ansteigende Quantität oder ein differenzieller Koeffizient des Durchschnittswertes des wie oben eingegebenen Cepstrums größer ist als ein vorbestimmter Treshold-Wert. Dann gibt der Sprachbeurteilungsschaltkreis 33 ein Signal aus, welches einen Vokal und/oder einen Konsonanten darstellt, und zwar an den Sprachausschneideabschnitt 4. Alternativ kann der Sprachbeurteilungsschaltkreis 33 ein Signal an den Sprachausschneideabschnitt 4 ausgeben, welches ein Sprachsignalintervall darstellt, welches einen Vokal und/oder einen Konsonanten enthält.
  • Der Sprachausschneideabschnitt 4 schneidet aus einem Sprachsignal nur ein Sprachsignalintervall in Antwort auf ein eingegebenes, verrauschtes Sprachsignal gemäß dem von den Sprachbeurteilungsabschnitt 3 ausgegebenen Signal aus, und gibt ein Ausschneidesprachsignal für das erfaßte Sprachsignalintervall aus.
  • Ein Ablauf der Signalverarbeitungsvorrichtung der ersten bevorzugten Ausführungsform wird im folgenden im Detail beschrieben.
  • Ein verrauschtes Sprachsignal wird in den Bandteilungsabschnitt 1 eingegeben, und dann übt der Bandteilungsabschnitt 1 den Bandteilungsprozeß aus, einschließlich einer Fouriertransformation für das eingegebene, verrauschte Sprachsignal, und gibt bandaufgeteilte Spektralsignale mehrerer Kanäle an den Cepstrumanalyseabschnitt 2 aus. Der Cepstrumanalyseabschnitt 2 übt den Cepstrumanalyseprozeß für die eingegebenen Spektralsignale mehrerer Kanäle aus, und gibt ein Cepstrumanalyseergebnis an den Sprachbeurteilungsabschnitt 3 aus. Der Sprachbeurteilungsabschnitt 3 erfaßt ein Sprachsignalintervall in Antwort auf das von dem Cepstrumanalyseabschnitt 2 ausgegebene Cepstrumanalyseergebnis, und gibt das erfaßte Ergebnis an den Sprachausschneideabschnitt 4 aus. Der Sprachausschneideabschnitt 4 schneidet ein Sprachsignal nur in Antwort auf ein verrauschtes Sprachsignal gemäß den erfaßten, von dem Sprachbeurteilungsabschnitt 3 ausgegebenen Ergebnis aus, genauer, und gibt ein ausgeschnittenes Sprachsignal aus.
  • Die zweite bevorzugte Ausführungsform
  • Fig. 2 zeigt eine Spracherkennungsvorrichtung einer zweiten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 2 sind gleiche Abschnitte wie jene in der Fig. 1 durch die gleichen Bezugszeichen gemäß Fig. 1 bezeichnet.
  • Die Spracherkennungsvorrichtung der zweiten bevorzugten Ausführungsform enthält weiterhin einen Eigenschaftsextraktionsabschnitt 5, einen Eigenschaftsvergleicher 6, und eine Speichereinheit 7, zusätzlich zu der in der Fig. 1 dargestellten ersten bevorzugten Ausführungsform.
  • Gemäß Fig. 2 extrahiert der Eigenschaftsextraktionsabschnitt 5 Eigenschaften einer Sprache eines ausgeschnittenen Sprachsignals, wie etwas einer Silbe in dem Sprachsignal, die durch den Sprachausschneideabschnitt 4 ausgeschnitten wurde, und gibt extrahierte Eigenschaften der Sprache an den Eigenschaftsvergleicher 6 aus. Der Eigenschaftsvergleicher 6 erkennt eine Art der Silbe des ausgeschnittenen Sprachsignals durch Vergleichen der extrahierten Eigenschaften, die durch den Eigenschaftsextraktionsabschnitt 5 ausgegeben wurden, mit vorbestimmten Standardeigenschaften, wie etwas Silben, die zuvor in der Speichereinheit 7 gespeichert wurden. Um die Standardeigenschaften zuvor zu speichern, wie durch Bezugszeichen 8 angedeutet, werden Spracheigenschaften in der Speichereinheit 7 gespeichert, die vom den Eigenschaftsextraktionsabschnitt 5 ausgegeben wurden, wenn ein bekanntes Sprachsignal eines Sprechers in den Bandteilungsabschnitt 1 und den Sprachausschneideabschnitt 4 eingegeben wird.
  • In der Spracherkennungsvorrichtung der zweiten bevorzugten Ausführungsform kann eine Erkennungsrate erhöht werden, da ein Sprachsignal aus einem eingegebenen, verrauschten Sprachsignal korrekt ausgeschnitten wird.
  • Die dritte bevorzugte Ausführungsform
  • Fig. 4 ist ein schematisches Blockdiagramm, welches eine Spracherkennungsvorrichtung einer dritten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung zeigt. In der Fig. 4 sind die gleichen Abschnitte, wie in den Fig. 1 bis 3, durch die gleichen Bezugszeichen gemäß den Fig. 1 bis 3 bezeichnet.
  • Die Spracherkennungsvorrichtung der dritten bevorzugten Ausführungsform schließt eine Kombination der Signalverarbeitungsvorrichtung der zweiten bevorzugten Ausführungsform gemäß Fig. 2 und der Spracherkennungsvorrichtung der dritten bevorzugten Ausführungsform gemäß Fig. 4 ein. In der Spracherkennungsvorrichtung enthält der Sprachbeurteilungsabschnitt 3 den Spitzenerkennungsabschnitt 31, den Durchschnittswertberechnungsabschnitt 32 und den Sprachbeurteilungsabschnitt 33. Die Spracherkennungsvorrichtung erkennt eine Sprache in Antwort auf ein Sprachsignal, welches durch den Sprachausschneideabschnitt 4 ausgeschnitten wurde.
  • Die vierte bevorzugte Ausführungsform
  • Fig. 6 ist ein schematisches Blockdiagramm, welches eine Signalverarbeitungsvorrichtung einer vierten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung zeigt.
  • Die Signalverarbeitungsvorrichtung der vierten bevorzugten Ausführungsform enthält einen Spracherfassungsabschnitt 101, einen Rauschvorhersageabschnitt 102, einen Unterdrückungsabschnitt 103 und einen Sprachausschneideabschnitt 104, wie in der Fig. 6 dargestellt ist.
  • Ein verrauschtes Sprachsignal wird in den Spracherkennungsabschnitt 101, den Rauschvorhersageabschnitt 102 und in den Unterdrückungsabschnitt 103 eingegeben. Der Spracherfassungsabschnitt 101 erfaßt ein Sprachsignalintervall in Antwort auf das eingegebene, verrauschte Sprachsignal. Der Spracherfassungsabschnitt 101 schließt einen Filter zum Filtern eines Sprachsignals ein, und unterscheidet zwischen einem Sprachsignalintervall und einem Rauschintervall.
  • Der Rauschvorhersageabschnitt 102 beurteilt als ein Rauschintervall ein Zeitintervall, welches sich von dem Sprachsignalintervall unterscheidet, welches von dem Spracherfassungsabschnitt 101 erfaßt wurde, sagt ein Rauschen in dem eingegebenen, verrauschten Sprachsignal für das beurteilte Sprachsignalintervall durch Verwendung der Rauschdaten für das Rauschintervall vorher, und gibt das vorhergesagte Rauschen an den Unterdrückungsabschnitt 103 aus.
  • Der Unterdrückungsabschnitt 103 unterdrückt das von dem Rauschvorhersageabschnitt 102 ausgegebene, vorhergesagte Rauschen in dem eingegebenen, verrauschten Sprachsignal, und gibt ein rauschunterdrücktes Sprachsignal an den Sprachausschneideabschnitt 104 aus. Fig. 10 zeigt ein Unterdrückungsverfahren auf einer Zeitachse, welches in den Unterdrückungsabschnitt 103 verwendet wurde. Wie in der Fig. 10 dargestellt, wird ein vorhergesagtes Rauschen (b) von einem eingegebenen, verrauschten Sprachsignal abgezogen, um so ein Sprachsignal (c) zu erhalten.
  • Darüber hinaus schneidet der Sprachausschneideabschnitt 104 ein Sprachsignal in den rauschunterdrückten Sprachsignal, welches von dem Unterdrückungsabschnitt 103 ausgegeben wurde aus, in Übereinstimmung mit dem von den Spracherkennungsabschnitt 101 ausgegebenen, erfaßten Sprachsignalintervall, und gibt ein ausgeschnittenes Sprachsignal aus.
  • Die fünfte bevorzugte Ausführungsform
  • Fig. 7 zeigte ein Signalverarbeitungsvorrichtung einer fünften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 7 sind die gleichen Abschnitte wie in der Fig. 1 und 6 mit den selben Bezugszeichen gemäß den Fig. 1 und 6 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der fünften bevorzugten Ausführungsform enthält einen Bandteilungsabschnitt 105 den Spracherfassungsabschnitt 101 einschließlich eines Cepstrumanalyseabschnittes 111 und eines Sprachbeurteilungsabschnittes 112, den Unterdrückungsabschnitt 103, einen Bandkombinierabschnitt 106, und den Sprachausschneideabschnitt 104.
  • Gemäß Fig. 7 übt der Bandteilungsabschnitt 105 einen Bandteilungsprozeß einschließlich einer Fouriertransformation für ein eingegebenes, verrauschtes Sprachsignal aus. Beispielsweise enthält der Bandteilungsabschnitt 105 einen Analog/Digitalwandler zum Umwandeln eines eingegebenen, verrauschten, analogen Sprachsignals in ein digitales, verrauschtes Sprachsignal, einen Fouriertransformator zum Fouriertransformieren des umgewandelten, digitalen, verrauschten Sprachsignals in ein transformiertes Spektralsignal, und einen Bandteiler zum Teilen des transformierten Spektralsignals in Spektralsignale mehrerer Kanäle m, welche vorherbestimmte Bandbreiten aufweisen, und welche aus Frequenzbändern zusammengesetzt sind, die sich von einander unterscheiden. Dann gibt der Bandteilungsabschnitt 105 die erhaltenen Spektralsignale der mehreren Kanäle m an den Unterdrückungsabschnitt 103, die Cepstrumanalyse 111 und den Rauschvorhersageabschnitt 102 aus.
  • Der Cepstrumanalyseabschnitt 111 und der Sprachbeurteilungsabschnitt 11 2 des Spracherfassungsabschnittes 101 sind auf ähnliche Weise wie der Cepstrumanalyseabschnitt 2 und der Sprachbeurteilungsabschnitt 3 aufgebaut, wie sie in der zweiten bevorzugten Ausführungsform gemäß der Fig. 2 verwendet werden.
  • Konkret enthältder Spracherfassungabschnitt 101 den Spitzenerfassungsabschnitt 31, den Durchschnittswertberechnungsabschnitt 32 und den Sprachbeurteilungsabschnitt 33, wie in der Fig. 3 dargestellt ist. Dann gibt der Sprachbeurteilungsschaltkreis 112 ein Signal aus, welches einen Vokal und/oder einen Konsonanten repräsentiert, und zwar den Sprachausschneideabschnitt 104. Alternativ kann der Sprachbeurteilungsabschnitt 112 ein Signal an den Sprachausschneideabschnitt 104 ausgeben, welches ein Sprachsignalintervall einschließlich eines Vokals und/oder eines Konsonanten darstellt.
  • Wie zuvor beschrieben, werden die verrauschten Spektralsignale mehrerer Kanäle in den Rauschvorhersageabschnitt 102 eingegeben. Da ein Abschnitt, in dem keine Sprache vorhanden ist, ein Abschnitt ist, in welchem nur Rauschen vorhanden ist (im folgenden als Nur-Rauschen-Abschnitt bezeichnet), sagt der Rauschvorsageabschnitt 102 ein Rauschen einer Sprache basierend auf Daten des Nur-Rauschen- Abschnittes vorher. Der Rauschvorhersageabschnitt 102 sagt nämlich eine Rauschkomponente entsprechender Kanäle basierend auf dem verrauschten Sprachsignal vorher, die in mehrere Bandkanäle m unterteilt sind.
  • Die Fig. 11 zeigt ein Beispiel eines Rauschvorhersageverfahrens. In der Fig. 11 ist eine x-Achse eine Frequenz, eine y-Achse ein Energieniveau eines eingegebenen Sprachsignals und einer z-Achse ist eine Zeit. Bei einer Frequenz f1 sind Daten p1, p2, ... pi vorhanden, wenn eine Zeit abgelaufen ist, und dann werden Daten pj, die nach den Daten pi auf der Linie der Daten p1, p2, ..., pi vorhanden sind, vorhergesagt. Beispielsweise wird ein Durchschnittswert von verrauschten Daten p1 bis pi berechnet, und dann wird der berechnete Durchschnittswert als ein vorhergesagter Wert pj gesetzt. Alternativ werden, wenn ein Sprachsignal kontinuierlich vorhanden ist, die Daten pj mit einem Dämpfungsfaktor multipliziert, und dann wird das Produkt der Daten pj und des Dämpfungsfaktors als ein vorhergesagter Wert gesetzt. Der Rauschvorhersageabschnitt 102 gibt ein vorhergesagtes Rauschsignal an den Unterdrückungsabschnitt 103 aus.
  • Die verrauschten Spektralsignale entsprechender Frequenzkanäle m, die von dem Bandteilungsabschnitt 105 ausgegeben wurden, werden in den Unterdrückungsabschnitt 103 eingegeben, und der Unterdrückungsabschnitt 103 weist zurück oder unterdrückt ein Rauschen eines vorhergesagten Wertes, welches durch den Rauschvorhersageabschnitt 102 vorhergesagt wurde, in den eingegebenen, verrauschten Spektralsignalen mehrerer Kanäle durch Substrahieren der vorhergesagten Rauschzustände von den verrauschten Spektralsignalen mehrerer Kanäle in jedem Kanal. Dann werden die rauschunterdrückten Spektralsignale mehrerer Kanäle an den Bandkombinierabschnitt 106 ausgegeben.
  • In der vorliegenden, bevorzugten Ausführungsform wird ein Unterdrückungsverfahren auf einer Frequenzachse gemäß Fig. 12 verwendet. Gemäß Fig. 12 wird ein verrauschtes Sprachsignal (a) in ein Spektralsignal (b) fouriertransformiert, und dann wird ein Spektrum (c) des vorhergesagten Rauschens von dem umgewandelten Spektralsignal (b) abgezogen, um so das substrahierte Spektralergebnis (d) zu erhalten. Darüber hinaus wird das substrahierte Spektralergebnis (d) inversfouriertransformiert, in ein Sprachsignal (e), welches kein Rauschen enthält, oder in ein rauschunterdrücktes Sprachsignal (e).
  • Der Bandkombinierabschnitt 106 kombiniert die Spektralsignale mehrerer Kanäle m, die von dem Unterdrückungsabschnitt 103 ausgegeben wurden, fouriertransformiert die kombinierten Spektralsignale invers in ein rauschunterdrücktes Sprachsignal, und gibt das rauschunterdrückte Sprachsignal an den Sprachausschneideabschnitt 104 aus. Schließlich schneidet der Sprachausschneideabschnitt 104 ein rauschunterdrücktes Sprachsignal in Antwort auf das rauschunterdrückte Sprachsignal aus, welches von dem Bandkombinierabschnitt 106 gemäß dem von dem Sprachbeurteilungsabschnitt 112 ausgegebenen, erfaßten Sprachsignalintervalls ausgegeben wurde, und gibt es aus.
  • Eine Vorgehensweise der Signalverarbeitungsvorrichtung der fünften bevorzugten Ausführungsform wird im folgenden beschrieben.
  • Ein verrauschtes Sprachsignal wird in den Bandteilungsabschnitt 105 eingegeben, und das Bandteilungsverfahren einschließlich der Fouriertransformation wird für das verrauschte, eingegebene Sprachsignal durch den Bandteilungsabschnitt 105 ausgeführt. Dann werden die bandgeteilten Spektralsignale mehrerer Kanäle m an den Cepstrumanalyseabschnitt 111, den Rauschvorhersageabschnitt 102 und den Unterdrückungsabschnitt 103 ausgegeben. Der Cepstrumanalyseabschnitt 111 übt den Cepstrumanalyseprozeß für die eingegebenen, verrauschten Spektralsignale mehrerer Kanäle aus, und gibt das Cepstrumanalyseergebnis an den Sprachbeurteilungsabschnitt 112 aus. Anschließend unterscheidet der Sprachbeurteilungsabschnitt 112 zwischen einem Sprachsignalintervall und einem Rauschintervall, und gibt ein Signal aus, welches ein Sprachsignalintervall desselben darstellt, an den Rauschvorhersageabschnitt 102 und den Sprachausschneideabschnitt 104. Der Rauschvorhersageabschnitt sagt Rauschen mehrerer Kanäle in dem verrauschten Sprachsignal in Antwort auf verrauschte Spektralsignale mehrerer Kanäle gemäß dem erfaßten Sprachsignalintervall vorher, welches von dem Sprachbeurteilungsabschnitt 112 ausgegeben wurde, und gibt die vorhergesagten Rauschzustände mehrerer Kanäle an den Unterdrückungsabschnitt 103 aus.
  • Der Unterdrückungsabschnitt 103 weist zurück oder unterdrückt die vorhergesagten Rauschzustände aus den verrauschten Spektralsignalen mehrerer Kanäle durch entsprechende Kanäle, und dann werden rauschunterdrückte Spektralsignale mehrerer Kanäle an den Bandkombinierabschnitt 106 ausgegeben. Der Bandkombinierabschnitt 106 kombiniert die rauschunterdrückten Spektralsignale mehrerer Kanäle, fouriertransformiert die kombinierten Spektralsignale invers in ein rauschunterdrücktes Sprachsignal, und gibt das transformierte Sprachsignal an den Sprachausschneideabschnitt 104 aus. Der Sprachausschneideabschnitt 104 schneidet ein rauschunterdrücktes Sprachsignal aus dem von dem Bandkombinierabschnitt 106 gemäß dem erfaßten Sprachsignalintervall, welches von dem Sprachbeurteilungsabschnitt 112 ausgegeben wurde, transformierten Sprachsignals aus, um ein Wort, um eine Silbe, wie etwas "a", "i", "u" usw. oder um einen Laut, und gibt ein ausgeschnittenes Sprachsignal aus.
  • Die sechste bevorzugte Ausführungsform
  • Fig. 8 zeigt eine Spracherkennungsvorrichtung einer sechsten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 8 sind gleiche Abschnitte, wie jene in den Fig. 2 und 6, durch die gleichen Bezugszeichen wie in den Fig. 2 und 6 bezeichnet.
  • Die Spracherkennungsvorrichtung der sechsten bevorzugten Ausführungsform ist weiterhin dadurch gekennzeichnet, daß sie einen Eigenschaftsextraktionsabschnitt 107, eine Speichereinheit 108 und Eigenschaftsvergleicher 109 zusätzlich zu der vierten bevorzugten Ausführungsform gemäß Fig. 6 enthält, und eine Sprache in Antwort auf das rauschunterdrückte Sprachsignal erkennt.
  • Der Eigenschaftsextraktionsabschnitt 107, die Speichereinheit 108 und der Eigenschaftsvergleicher 109 sind auf ähnliche Weise aufgebaut, wie der Eigenschaftsextraktionsabschnitt 5, die Speichereinheit 6 und der Eigenschaftsvergleicher 7, welche in der sechsten bevorzugten Ausführungsform gemäß Fig. 2 verwendet werden.
  • In der Spracherkennungsvorrichtung der sechsten bevorzugten Ausführungsform, aufgebaut wie oben, ist, da eine Sprache in Antwort auf ein Sprachsignal erkannt wird, welches basierend auf dem vorgesagten Rauschen rauschunterdrückt wurde, eine Erhöhung der Erkennungsrate möglich.
  • Die siebte bevorzugte Ausführungsform
  • Fig. 9 zeigt eine Spracherkennungsvorrichtung einer siebten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 9 sind gleiche ABschnitte, wie die in den Fig. 2 und 7 dargestellten, durch die gleichen Bezugszeichen wie in den Fig. 2 und 7 bezeichnet.
  • Die Spracherkennungsvorrichtung der siebten bevorzugten Ausführungsform ist weiterhin dadurch gekennzeichnet, daß sie einen Eigenschaftsextraktionsabschnitt 107, eine Speichereinheit 108 und einen Eigenschaftsvergleicher 109 zusätzlich zu der fünften bevorzugten Ausführungsform gemäß Fig. 7 enthält, und eine Sprache in Antwort auf das rauschunterdrückte Sprachsignal erkennt.
  • Der Eigenschaftsextraktionsabschnitt 107, die Speichereinheit 108 und der Eigenschaftsvergleicher 109 sind auf ähnliche Weise aufgebaut, wie der Eigenschaftsextraktionsabschnitt 5, die Speichereinheit 6 und der Eigenschaftsvergleicher 7, welche in der zweiten bevorzugten Ausführungsform gemäß Fig. 2 verwendet werden.
  • In der Spracherkennungsvorrichtung des siebten bevorzugten Ausführungsform, die wie oben aufgebaut ist, kann, da eine Sprache in Antwort auf Sprachsignal erkannt wird, welches basierend auf den vorgesagten Rauschen rauschunterdrückt wurde, die Erkennungsrate erhöht werden.
  • Die achte bevorzugte Ausführungsform
  • Fig. 13 zeigt ein Signalverarbeitungsvorrichtung einer achten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung.
  • Die Signalverarbeitungsvorrichtung der achten bevorzugten Ausführungsform enthält einen Bandteilungsabschnitt 201, einen Cepstrumanalyseabschnitt 202, einen Sprachbeurteilungsabschnitt 203, einen Rauschintervallbeurteilungsabschnitt 204, einen Dämpfungsregler 205, und einen Dämpfungsabschnitt 206.
  • Der Bandteilungsabschnitt 201, der Cepstrumanalyseabschnitt 202, und der Sprachbeurteilungsabschnitt 203 sind auf ähnliche Weise aufgebaut, wie der Bandteilungsabschnitt 105, der Cepstrumanalyseabschnitt 111, und der Sprachbeurteilungsabschnitt 112, die in der fünften bevorzugten Ausführungsform gemäß Fig. 7 verwendet werden. Konkret enthält der Sprachbeurteilungsabschnitt 203 gemäß Fig. 5 einen Spitzenerfassungsabschnitt 231 zum Erfassen einer Spitze des von dem Cepstrumanalyseabschnitt 202 erhaltenen Cepstrums, einen Durchschnittswertberechnungsabschnitt 232 zum Berechnen eines Durchschnittswertes des von dem Cepstrumanalyseabschnitt 202 erhaltenen Cepstrums, einen Vokal/- Konsonantenbeurteilungsabschnitt 233 zum Erfassen eines Vokals und/oder eines Konsonanten in Antwort auf die Spitze des Cepstrums, welches durch den Spitzenerfassungsabschnitt 231 erfaßt wurde, und dem Durchschnittswert des Cepstrums, welches durch den Durchschnittswertberechnungsabschnitt 232 berechnet wurde, und einen Sprachbeurteilungsabschnitt 234 zu Erfassen eines Sprachsignalintervalls in Antwort auf den erfaßten Vokal oder den erfaßten Konsonanten, welcher von den Vokal/Konsonantenbeurteilungsabschnitt 233 ausgegeben wurde, und zum Ausgeben des erfaßten Sprachsignalintervalls an den Rauschintervallbeurteilungsabschnitt 204.
  • Der Rauschintervallbeurteilungsabschnitt 204 erfaßt ein Rauschintervall durch invertierendes Sprachsignalintervalls, welches durch den Sprachbeurteilungsschaltkreis 234 des Sprachbeurteilungsabschnittes 203 erfaßt wurde, und gibt das erfaßte Rauschintervall an den Dämpfungsregler 205 aus. Der Dämpfungsregler 205 erzeugt und gibt aus ein Regelsignal, welches das erfaßte Rauschintervall darstellt, zum Darstellen des Anfangs und des Endes desselben gegenüber dem Dämpfungsabschnitt 206 dämpft ein eingegebenes, verrauschtes Sprachsignal nur in dem Rauschintervall gemäß dem Regelsignal, welches von dem Dämpfungsregler 205 ausgegeben wurde, und gibt das verrauschte Sprachsignal nur für das Rauschnintervall gedämpft aus.
  • Die neunte bevorzugte Ausführungsform
  • Fig. 14 zeigt eine Signalverarbeitungsvorrichtung einer neunten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 14 sind gleiche Abschnitte, wie jene in der Fig. 13 dargestellten, durch die gleichen Bezugszeichen, wie in der Fig. 13 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der neunten bevorzugten Ausführungsform ist dadurch gekennzeichnet, daß alle Signalverarbeitungen durch digitale Signalverarbeitungen vorgenommen werden. Verglichen mit der in der Fig. 8 dargestellten achten bevorzugten Ausführungsform enthält die Signalverarbeitungsvorrichtung der neunten bevorzugten Ausführungsform einen Analog-/Digitalwandler 207 und einen schnellen Fouriertransformator (im folgenden als ein FFT bezeichnet) 208 anstelle des Bandteilungsabschnittes 201, und enthält ebenfalls einen digitalen Dämpfungsabschnitt 208, und einen Digital-/Analogwandler 209 anstelle des Dämpfungsabschnittes 206. Unterschiede zwischen den 13 und 14 bevorzugten Ausführungsformen werden im folgenden im Detail beschrieben.
  • Der Digital-/Analogwandler 207 wandelt ein eingegebenes, verrauschtes Sprachsignal in ein digitales, verrauschtes Sprachsignal um, und gibt das umgewandelte, digitale, verrauschte Sprachsignal an den FFT 208 und Digitaldämpfungsabschnitt 208 aus. Der FFT 208 fouriertransformiert das A/D-umgewandelte, digitale, verrauschte Sprachsignal in ein Spektralsignal, und kippt das transformierte Spektralsignal an den Cepstrumanalyseabschnitt 202 aus.
  • Der Cepstrumanalyseabschnitt 202, der Sprachbeurteilungsabschnitt 203, der Rauschintervallbeurteilungsabschnitt 204 und der Dämpfungsregler 205 sind auf ähnliche Weise aufgebaut, wie der Cepstrumanalyseabschnitt 202, der Sprachbeurteilungsabschnitt 203, der Rauschintervallbeurteilungsabschnitt 204, und der Dämpfungsregler 205, welche in der achten bevorzugten Ausführungsform gemäß Fig. 13 verwendet werden.
  • Der digitale Dämpfungsabschnitt 208 dämpft das digitale Spektralsignal, welches von dem Analog-/Digitalwandler 207 ausgegeben wurde, nur in einem durch den Rauschintervallbeurteilungsabschnitt 204 gemäß dem von dem Dämpfungsregler 205 ausgegebenen Kontrollsignal erfaßten Rauschintervall. Darüber hinaus wandelt der Digital-/Analogwandler 209 das digitale Spektralsignal um, welches von dem digitalen Dämpfungsabschnitt 208 ausgegeben wurde, in ein analoges Sprachsignal, dessen Stärke nur für das erfaßte Rauschintervall abgedämpft ist.
  • Die zehnte bevorzugte Ausführungsform
  • Fig. 16 zeigt eine Signalverarbeitungsvorrichtung einer zehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 16 sind gleiche Abschnitte, wie jene in der Fig. 13, durch die gleichen Bezugszeichen wie in der Fig. 13 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der zehnten bevorzugten Ausführungsform enthält einen Spracherfassungsabschnitt 210, eine Speichereinheit 211, einen Abschätzer 212 der maximalen Ähnlichkeit, den Sprachintervallbeurteilungsab schnitt 204, den Dämpfungsregler 205 und den Dämpfungsabschnitt 206. In der Signalverarbeitungsvorrichtung sind der Rauschintervallbeurteilungsabschnitt 204, der Dämpfungsregler 205 und der Dämpfungsabschnitt 206 auch in einer ähnlichen Weise aufgebaut, wie jene der in der Figur dargestellten Abschnitte.
  • Der Spracherfassungsabschnitt 210 erfaßt ein Sprachsignal in Antwort auf ein eingegebenes, verrauschtes Sprachsignal. Der Spracherfassungsabschnitt 210 enthält beispielsweise den Bandteilungsabschnitt 201, den Cepstrumanalyseabschnitt 202, und den Sprachbeurteilungsabschnitt 203. Alternativ kann der Spracherfassungsabschnitt 210 durch einen Filter gebildet werden.
  • Die Speichereinheit 211 speichert zuvor Eigenschaften von Sprachsignalen mehrerer Sprecher, und wird durch ein ROM gebildet. Ein Sprachauswahlsignal zum Auswählen von Eigenschaften eines Sprachsignals eines bestimmten Sprechers wird in die Speichereinheit 211 eingegeben. Wenn ein Sprachauswahlsignal in die Speichereinheit 211 eingegeben wurde, werden die Eigenschaften des Sprachsignals eines bestimmten Sprechers entsprechend dem eingegebenen Sprachauswahlsignal aus der Speichereinheit 211 ausgelesen, und werden an den Abschätzer 212 der maximalen Ähnlichkeit ausgegeben.
  • Der Abschätzer 212 der maximalen Ähnlichkeit erfaßt, welcher Sprecher des durch den Sprachbeurteilungsabschnitt 210 erfaßten Sprachsignals entspricht, durch Vergleichen des durch den Spracherfassungsabschnitt 210 erfaßten Sprachsignals mit den Eigenschaften des Sprachsignals des ausgewählten Sprechers, welcher von der Speichereinheit 211 ausgegeben wurde, und gibt das Erfassungsergebnis an den Rauschintervallabschnitt 204 aus. In den Abschätzer 212 der maximalen Ähnlichkeit wird eine Musterübereinstimmungsmethode verwendet, eine Methode zum Erfassen einer Ähnlichkeit zwischen einer Amplitudenstärke des von dem Sprachsignalerfassungsabschnitt 210 ausgegebenen Sprachsignals und einer Amplitudenstärke des von der Speichereinheit 212 ausgegebenen Sprachsignals ausgegebenen, oder eine Methode zum Erfassen einer Ähnlichkeit zwischen einer Phase des von dem Sprachsignalerfassungsabschnitt 210 ausgegebenen Sprachsignals und einer Phase des von der Speichereinheit 211 ausgegebenen Sprachsignals. Daher beurteilt der Abschätzer 212 der maximalen Ähnlichkeit, ob oder ob nicht ein Sprachsignal, welches gerade in die Signalverarbeitungsvorrichtung eingegeben wurde, mit dem Sprachsignal eines ausgewählten Sprechers übereinstimmt.
  • Der Rauschintervallberurteilungsabschnitt 204 erfaßt ein Rauschintervall in ANtwort auf das von dem Spracherfassungsabschnitt 210 ausgegebenen Sprachsignals, und des Erfassungsergebnisses, welches von dem Abschätzer 212 der maximalen Ähnlichkeit ausgegeben wurde, und unterscheidet zwischen einem Sprachsignal des ausgewählten Sprechers und einem Sprachsignal von einem der anderen Sprecher, oder einem Rauschen. Der Dämpfungsregler 205 und der Dämpfungsabschnitt 206 operieren auf ähnliche Weise wie die in der achten bevorzugten Ausführungsform gemäß Fig. 13 dargestellten Abschnitte.
  • Der Betrieb der Signalverarbeitungsvorrichtung der zehnten bevorzugten Ausführungsform wird im folgenden im Detail beschrieben.
  • Die Eigenschaften der Sprachsignale mehrerer Sprecher A, B, C werden zuvor in der Speichereinheit 211 gespeichert. Beispielsweise wird ein Sprachauswahlsignal zum Auswählen eines Sprachsignals des Sprechers A in die Speichereinheit 211 eingegeben. Dann werden die Eigenschaften des Sprachsignals des Sprechers A von der Speichereinheit 211 an den Abschätzer 212 der maximalen Ähnlichkeit ausgegeben.
  • Es wird nun ein Fall betrachtet, daß der Sprecher A ein Automobil fährt, und ein anderer Sprecher in das Automobil einsteigt, und der Sprecher und Fahrer A wählt unter Verwendung seiner Sprache und spricht in ein Freisprechtelefon. Nicht nur ein Rauschen, wie etwa ein Geräusch eines Motors des Automobils, sondern auch eine Sprache des Sprechers B werden zu der Sprache des Sprechers A hinzu addiert. Solch ein verrauschtes Sprachsignal wird in den Spracherfassungsabschnitt 210 und den Dämpfungsabschnitt 206 eingegebenen, und dann wird in Antwort darauf der Spracherfassungsabschnitt 210 ein Sprachsignal erfassen, und das erfaßte Sprachsignal an den Rauschintervallbeurteilungsabschnitt 204, die Speichereinheit 211, und den Abschätzer 212 der maximalen Ähnlichkeit ausgeben.
  • Weiterhin beurteilt der Abschätzer 212 der maximalen Ähnlichkeit, ob oder ob nicht das eingegebene Sprachsignal mit dem Sprachsignal des Sprechers A übereinstimmmt, und gibt das Beurteilungsergebnis an den Rauschintervallbeurteilungsabschnitt 204 aus. Wenn das erfaßte Sprachsignal die Sprache des Sprechers B ist, gibt daher der Abschätzer 212 der maximalen Ähnlichkeit ein Beurteilungsergebnis aus, welches zeigt, daß das eingegebene Sprachsignal nicht das Sprachsignal des Sprechers A ist. Auf der anderen Seite, wenn das erfaßte Sprachsignal die Sprache des Sprechers A ist, wird der Abschätzer 212 der maximalen Ähnlichkeit ein Beurteilungsergebnis ausgeben, welches zeigt, daß das eingegebene Sprachsignal das Sprachsignal des Sprechers A ist.
  • In Antwort auf das durch den Spracherfassungsabschnitt 210 erfaßte Sprachsignal, und des Beurteilungsergebnisses, welches von dem Abschätzer 212 der maximalen Ähnlichkeit ausgegeben wurde, erfaßt der Rauschintervallbeurteilungsabschnitt 204 ein Rauschintervall einschließlich eines Sprachsignalintervalls anderer Sprecher, wie etwa dem Sprecher B, und gibt das Erfassungsergebnis an den Dämpfungsregler 205 aus. Es sei festgehalten, daß ein Zeitintervall, welches von den erfaßten Rauschintervall unterscheidet, ein Sprachsignalintervall des Sprechers A ist. Der Dämpfungsregler 205 erzeugt ein Kontrollsignal gemäß dem erfaßten Ergebnis, welches von dem Rauschintervallbeurteilungsabschnitt 204 ausgegeben wurde, und gibt es an den Dämpfungsabschnitt 206 aus. Der Dämpfungsabschnitt 206 dämpft das eingegebene, verrauschte Sprachsignal nur in dem Rauschintervall, welches durch den Rauschintervallbeurteilungsabschnitt 204 erfaßt wurde. Da nicht nur ein Geräusch eines Motor des Automobils, sondern auch ein Sprachsignal sich von dem Sprecher A unterscheidender Sprecher durch den Dämpfungsabschnitt 206 gedämpft werden, kann das ausreichend rauschunterdrückte Sprachsignal des Sprechers A erhalten werden. Wenn der Ausgabeanschluß der Signalverarbeitungsvorrichtung daher an ein Freisprechtelefon mit einer Sprachwählfunktion angeschlossen ist, wird ein Sprachwählvorgang, und ein Freisprechabnehmen ohne jeden Fehler bei Verwendung des Freisprechtelefons ausgeführt.
  • Die elfte bevorzugte Ausführungsform
  • Fig. 17 zeigt eine Signalverarbeitungsvorrichtung einer elften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 17 sind gleiche Abschnitte, wie die in den Fig. 13 und 16 dargestellten, durch die gleichen Bezugszeichen wie in den Fig. 13 und 16 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der elften bevorzugten Ausführungsform ist weiterhin dadurch gekennzeichnet, daß sie einen Bandteilungsabschnitt 201, den Cepstrumanalyseabschnitt 202, und den Sprachbeurteilungsabschnitt 203 enthält, welche in der achten bevorzugten Ausführungsform gemäß Fig. 13 verwendet werden, anstelle des Spracherfassungsabschnittes 210 der zehnten bevorzugten Ausführungsform gemäß Fig. 16.
  • In der vorliegenden bevorzugten Ausführungsform wird die Cepstrumanalyse verwendet, unter Eigenschaften des Sprachsignals, welches in der Speichereinheit 211 und dem Abschätzer 212 der maximalen Ähnlichkeit verwendet wird, wird vorzugsweise eine Spitze eines Cepstrums, ein Durchschnittswert des Cepstrums oder ein Formant verwendet.
  • Die zwölfte bevorzugte Ausführungsform
  • Fig. 18 zeigt eine Signalverarbeitungsvorrichtung einer zwölften bevorzugten Ausführungsform gemäß der vorliegenden Erfindung. In der Fig. 18 sind gleiche Abschnitt, wie jene in den Fig. 15 und 17 dargestellten, durch gleiche Bezugszeichen wie in den Fig. 15 und 17 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der zwölften bevorzugten Ausführungsform zeichnet sich dadurch aus, daß der Sprachbeurteilungsabschnitt 203 der elften bevorzugten Ausführungsform gemäß Fig. 17 den Spitzenerfassungsabschnitt 231, den Durchschnittswertberechnungsabschnitt 232, den Vokal/Konsonantenabschnitt und den Sprachbeurteilungsabschnitt 234 enthält, welche in der neunten bevorzugten Ausführungsform gemäß Fig. 15 verwendet.
  • In der bevorzugten Ausführungsform wird ein Sprachsignal genauer erfaßt, da die Vokale und/oder die Konsonanten erfaßt werden.
  • Die dreizehnte bevorzugte Ausführungsform
  • Fig. 19 zeigt eine Signalverarbeitungsvorrichtung einer dreizehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung, und Fig. 20 zeigt eine Signalverarbeitungsvorrichtung einer konkreten Ausführungsform der dreizehnten bevorzugten Ausführungsform gemäß Fig. 19.
  • Die Signalverarbeitungsvorrichtung der dreizehnten bevorzugten Ausführungsform enthält einen Spracherfassungsabschnitt 301, einen Rauschvorhersageabschnitt 302, einen Unterdrückungsabschnitt 303, einen Rauschintervallbeurteilungsabschnitt 304, einen Dämpfungsregler 305, und einen Dämpfungsabschnitt 306.
  • Der Signalerfassungsabschnitt 301, der Rauschvorhersageabschnitt 302 und der Unterdrückungsabschnitt 303 sind auf ähnliche Weise aufgebaut, wie der Signalerfassungsabschnitt 101, der Rauschvorhersageabschnitt 102, und der Unterdrückungsabschnitt 103, welche in der sechsten bevorzugten Ausführungsform gemäß Fig. 8 verwendet werden. Es sei festgestellt, daß der Spracherfassungsabschnitt 301, beispielsweise gemäß Fig. 20, einen Bandteilungsabschnitt 307, einen Cepstrumanalyseabschnitt 308 und einen Sprachbeurteilungsabschnitt 309 enthält, welche auf ähnliche Weise aufgebaut sind, wie der Bandteilungsabschnitt 201, der Cepstrumanalyseabschnitt 202, und der Sprachbeurteilungsabschnitt 203, die in der siebten bevorzugten Ausführungsform gemäß Fig. 9 verwendet werden.
  • Der Rauschintervallbeurteilungsabschnitt 304, der Dämpfungsregler 305 und der Dämpfungsabschnitt 306 werden auf ähnliche Weise aufgebaut, wie der Rauschintervallbeurteilungsabschnitt 204, der Dämpfungsregler 205 und der Dämpfungsabschnitt 206, welche in der zehnten bevorzugten Ausführungsform gemäß Fig. 16 verwendet werden. Es sei festgestellt, daß der Dämpfungsregler 305 ein Kontrollsignal gemäß einem Rauschintervall erzeugt, welches durch den Rauschintervallberurteilungsabschnitt 304 erfaßt wurde, und ein Dämpfungs-EIN/AUS- Regelsignal, welches in einer externen Vorrichtung manuell gesetzt wird, und welches von der externen Vorrichtung aufgegeben wird. Wenn ein eingegebenes Signal nur aus Rauschen besteht, oder wenn die Notwendigkeit besteht, nach dem Verarbeiten eines von der Signalverarbeitungsvorrichtung ausgegebenen Sprachsignals Rauschen zu unterdrücken, wird das Dämpfungs-EIN/AUS-Regelsignal eingeschaltet. Auf der anderen Seite, wenn es erlaubt ist, das Rauschen bei dem Verarbeiten eines von der Signalverarbeitungsvorrichtung ausgegebenen Sprachsignals auftritt, dann wird das Dämpfungs-EIN/AUS-Regelsignal ausgeschaltet.
  • Darüber hinaus erfaßt der Rauschvorhersageabschnitt 304 Rauschintervalle durch entsprechende Kanäle m und gibt die vorgesagten Rauschintervalle an den Unterdrückungsabschnitt 303 aus. Der Unterdrückungsabschnitt 303 unterdrückt oder weist zurück das vorhergesagte Rauschen aus dem eingegebenen verrauschten Sprachsignal, und gibt ein rauschunterdrücktes Sprachsignal an den Dämpfungsabschnitt 306 aus. Ein Bandkombinierabschnitt 310 gemäß Fig. 20 kombiniert die rauschunterdrückten Spektralsignale mehrerer Kanäle m, fouriertransformiert die kombinierten Spektralsignale invers in ein rauschunterdrücktes Sprachsignal, und gibt ein rauschunterdrücktes Sprachsignal aus.
  • Der Dämpfungsabschnitt 306 dämpft das von dem Unterdrückungsabschnitt 303 gemäß Fig. 19 oder von dem Bandkombinierabschnitt 310 gemäß Fig. 20 ausgegebene Sprachsignal nur für das durch den Rauschintervallbeurteilungsabschnitt 304 erfaßte Rauschintervall, gemäß dem von dem Dämpfungsregler 305 ausgegebenen Regelsignals.
  • Die vierzehnte bevorzugte Ausführungsform
  • Fig. 21 ist ein schematisches Blockdiagramm, welches eine Signalverarbeitungsvorrichtung einer vierzehnten bevorzugten Ausführungsform gemäß der vorliegenden Erfindung darstellt. In der Fig. 21 werden gleiche Abschnitte, wie jene in der Fig. 19, durch gleiche Bezugszeichen wie in der Fig. 19 bezeichnet.
  • Die Signalverarbeitungsvorrichtung der vierzehnten bevorzugten Ausführungsform ist dadurch gekennzeichnet, daß sie weiterhin einen Rauschstärkeberechnungsabschnitt 311 zusätzlich zu der dreizehnten bevorzugten Ausführungsform gemäß Fig. 19 enthält. Ein eingegebenes, verrauschtes Sprachsignal wird in den Rauschstärkeberechnungsabschnitt 311 eingegebenen, und auch ein von dem Spracherfassungsabschnitt 301 erfaßtes Sprachsignal wird in den Rauschstärkeberechnungsabschnitt 311 eingegeben. Dann berechnet der Rauschstärkeberechnungsabschnitt 311 eine Stärke eines Rauschens, welches in dem eingegebenen, verrauschten Sprachsignal vorhanden ist, und gibt die berechnete Stärke des Rauschens an den Dämpfungsregel 305 aus. Gemäß der berechneten Stärke des Rauschens, welche von dem Rauschstärkeberechnungsabschnitt 311 ausgegeben wurde, erzeugt der Dämpfungsregler 305 ein Regelsignal, welches zeigt, ob oder ob nicht das eingegebene, verrauschte Sprachsignal abhängig von der berechneten Stärke des Rauschens, welche von dem Rauschstärkeberechnungsabschnitt 311 ausgegeben wurde, zu dämpfen ist, und gibt es an den Dämpfungsabschnitt 306 aus. Beispielsweise wird das eingegebene, verrauschte Sprachsignal durch den Dämpfungsabschnitt 306 gedämpft, wenn die berechnete Stärke des Rauschens größer ist als ein vorherbestimmter Threshold-Wert. Auf der anderen Seite, wenn die berechnete Stärke des Rauschens gleich oder kleiner ist als der obige, vorherbestimmte Threshold-Wert, wird das eingegebene, verrauschte Sprachsignal so wie es ist, ohne Dämpfung durch den Dämpfungsabschnitt 306, ausgegeben.
  • Die anderen bevorzugten Ausführungsformen
  • In den oben erwähnten, bevorzugten Ausführungsformen, werden der Cepstrumanalyseabschnitt, der Sprachausschneideabschnitt, der Abschätzer maximaler Ähnlichkeit, der Rauschintervallbeurteilungsabschnitt, der Rauschvorhersageabschnitt, der Rauschvorhersageabschnitt, der Spracherfassungsabschnitt, der Dämpfungsabschnitt, und der Unterdrückungsabschnitt unter Verwendung eines Computers mittels Software konstituiert. Diese Sektionen können jedoch auch durch Hardware, die nur für diese Sektionen verwendet wird, konstituiert werden.
  • Obwohl die vorliegende Erfindung vollständig in Verbindung mit den bevorzugten Ausführungsformen derselben mit Bezug auf die begleitenden Zeichnungen beschrieben wurde, sei festgestellt, daß verschiedene Veränderungen und Modifikationen für den Fachmann klar sind. Derartige Veränderungen und Modifikationen sind so aufzufassen, daß sie in dem Schutzbereich der vorliegenden Erfindung liegen, wie er durch die anliegenden Ansprüche definiert ist, es sei denn sie weichen von diesem ab.

Claims (5)

1. Signalverarbeitungsvorrichtung mit:
Bandteilungsmitteln (1; 201; 307) zum Ausführen eines Bandteilungsprozesses einschließlich einer Fouriertransformation für ein eingegebenes Sprachsignal, und zum Ausgeben von Spektralsignalen mehrerer Kanäle;
Cepstrumanalysemitteln (2; 202; 308) zum Ausführen eines Cepstrumanalyseprozesses mit den Spektralsignalen der mehreren Kanäle, die von den Bandteilungsmitteln (1; 201; 307) ausgegeben wurden, und zum Ausgeben des Cepstrumanalyseergebnisses,
wobei die Signalverarbeitungsvorrichtung weiterhin enthält:
Sprachbeurteilungsmittel (3; 203; 309) zum Erfassen eines Sprachsignalintervalls in Antwort auf das Cepstrumanalyseergebnis, welches von den Cepstrumanalysemitteln (2; 202; 308) ausgegeben wurde, und zum Ausgeben des erfaßten Sprachsignalintervalls;
Rauschintervallbeurteilungsmittel (204; 304) zum Erfassen eines Rauschintervalls in Antwort auf das erfaßte Sprachsignalintervall, welches von den Sprachbeurteilungsmitteln (3; 203; 309) ausgegeben wurde; und
Mutingmittel (205; 206; 305; 306) zum Dämpfen des eingegebenen verrauschten Sprachsignals nur für das erfaßte Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln (204; 304) ausgegeben wurde, und zum Ausgeben des Sprachsignals, welches nur bezüglich des erfaßten Rauschintervalls gedämpft ist.
2. Signalverarbeitungsvorrichtung nach Anspruch 1, wobei die Mutingmittel (205; 206; 305; 306) Sprachausschneidemittel (4) zum Ausschneiden eines Sprachsignals aus dem eingegebenen, verrauschten Sprachsignal gemäß dem erfaßten Sprachsignalintervall, welches von den Sprachbeurteilungsmitteln (203; 3; 309) ausgegeben wurde, und zum Ausgeben des ausgeschnittenen Sprachsignals einschließen.
3. Signalverarbeitungsvorrichtung nach Anspruch 2, wobei die Sprachbeurteilungsmittel enthalten:
Spitzenerfassungsmittel (31) zum Erfassen einer Spitze eines Cepstrums in Antwort auf das Cepstrumanalyseergebnis, welches von den Cepstrumanalysemitteln (2) ausgegeben wurde;
Durchschnittswertberechnungsmittel (32) zum Berechnen eines Durchschnittswertes des Cepstrums in Antwort auf das Cepstrumanalyseergebnis, welches von den Cepstrumanalysemitteln (2) ausgegeben wurde, und zum Ausgeben des berechneten Durchschnittswertes des Cepstrums; und
eine Sprachbeurteilungsschaltung (33) zum Erfassen eines Sprachsignalintervalls in Antwort auf die erfaßte Spitze des Cepstrums, welche von den Spitzenerfassungsmitteln (31) ausgegeben wurde, und des berechneten Durchschnittswertes des Cepstrums, welcher von den Durchschnittswertberechnungsmitteln (32) ausgegeben wurde.
4. Signalverarbeitungsvorrichtung nach den Ansprüchen 2 oder 3, weiterhin enthaltend:
Eigenschaftsextraktionsmittel (5) zum Extrahieren einer Eigenschaft einer Sprache von dem ausgeschnittenen Sprachsignal, welches von den Sprachausschneidemitteln (4) ausgegeben wurde, und zum Ausgeben der extrahierten Eigenschaft der Sprache;
Speichermittel (7), um vorher Standardeigenschaften von Sprachen mehrerer Sprecher zu speichern; und
Eigenschaftsvergleichsmittel (6) zum Wiedererkennen einer Sprache durch Vergleichen der extrahierten Eigenschaften der Sprache, welche von den Eigenschaftextraktionsmitteln (5) ausgegeben wurden, mit den Standardeigenschaften der Sprachen, die in den Speichermitteln (7) gespeichert sind.
5. Signalverarbeitungsvorrichtung nach den Ansprüchen 1 oder 2, weiterhin enthaltend:
Rauschvorhersagemittel (302) zum Vorhersagen von Rauschzuständen der Spektralsignale der mehreren Kanäle, die von den Bandteilungsmitteln (1; 201; 307) in Antwort auf das erfaßte Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln (204; 304) ausgegeben wurde, ausgegeben wurden, und zum Ausgeben der vorhergesagten Rauschzustände mehrerer Kanäle;
Unterdrückungsmittel (303) zum Unterdrücken der vorhergesagten Rauschzustände mehrerer Kanäle, die von den Rauschvorhersagemitteln (302) in den Spektralsignalen mehrerer Kanäle, die von den Bandteilungsmitteln (1; 201; 307) ausgegeben wurden, ausgegeben wurden, und zum Ausgeben rauschunterdrückter Spektralsignale mehrerer Kanäle;
Bandkombiniermittel (310) zum Kombinieren der rauschunterdrückten Spektralsignale mehrerer Kanäle, die von den Unterdrückungsmitteln (303) ausgegeben wurden, zum Ausführen einer inversen Fouriertransformation mit den kombinierten Spektralsignalen in ein transformiertes Sprachsignal, und zum Ausgeben des transformierten Sprachsignals; und
weitere Mutingmittel (306) zum Dämpfen des transformierten Sprachsignals, welches von den Bandkombiniermitteln (310) ausgegeben wurde, nur für das erfaßte Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln (204; 304) erfaßt wurde, mit einem vorbestimmten Dämpfungswert gemäß dem erfaßten Rauschintervall, welches von den Rauschintervallbeurteilungsmitteln (203; 304) ausgegeben wurde, und zum Ausgeben des Sprachsignals, welches nur bezüglich des erfaßten Rauschintervalls gedämpft wurde.
DE69130687T 1990-05-28 1991-05-28 Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal Expired - Fee Related DE69130687T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP13806090 1990-05-28
JP13805990 1990-05-28
JP13805490 1990-05-28
JP13805590 1990-05-28

Publications (2)

Publication Number Publication Date
DE69130687D1 DE69130687D1 (de) 1999-02-11
DE69130687T2 true DE69130687T2 (de) 1999-09-09

Family

ID=27472110

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69130687T Expired - Fee Related DE69130687T2 (de) 1990-05-28 1991-05-28 Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal

Country Status (4)

Country Link
US (1) US5220610A (de)
EP (1) EP0459384B1 (de)
KR (1) KR950013553B1 (de)
DE (1) DE69130687T2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4167229A1 (de) * 2021-10-18 2023-04-19 Audio Mobil Elektronik GmbH Audio-maskierung von sprechern
WO2023066908A1 (de) * 2021-10-18 2023-04-27 Audio Mobil Elektronik Gmbh Audio-maskierung von sprache

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04369698A (ja) * 1991-06-19 1992-12-22 Kokusai Denshin Denwa Co Ltd <Kdd> 音声認識方式
DE4229577A1 (de) * 1992-09-04 1994-03-10 Daimler Benz Ag Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US6167133A (en) * 1997-04-02 2000-12-26 At&T Corporation Echo detection, tracking, cancellation and noise fill in real time in a communication system
JP3161426B2 (ja) 1998-10-09 2001-04-25 日本電気株式会社 有線伝送装置及び有線伝送方法
JP3157788B2 (ja) * 1998-11-12 2001-04-16 埼玉日本電気株式会社 携帯型情報端末
US7571095B2 (en) * 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US6751564B2 (en) 2002-05-28 2004-06-15 David I. Dunthorn Waveform analysis
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
KR101173395B1 (ko) * 2009-05-28 2012-08-10 웅진코웨이주식회사 수처리 기기용 세척장치
KR20110028095A (ko) * 2009-09-11 2011-03-17 삼성전자주식회사 실시간 화자 적응을 통한 음성 인식 시스템 및 방법
US8892046B2 (en) * 2012-03-29 2014-11-18 Bose Corporation Automobile communication system
US20140074480A1 (en) * 2012-09-11 2014-03-13 GM Global Technology Operations LLC Voice stamp-driven in-vehicle functions

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2437744A1 (fr) * 1978-09-29 1980-04-25 Thomson Csf Dispositif de traitement des signaux vocaux de modulation et emetteur comportant un tel dispositif
US4461025A (en) * 1982-06-22 1984-07-17 Audiological Engineering Corporation Automatic background noise suppressor
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
GB2139052A (en) * 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
SE441992B (sv) * 1985-01-29 1985-11-25 Kenneth Wallmark Anordning vid en kedjebroms for en motorsag
EP0226613B1 (de) * 1985-07-01 1993-09-15 Motorola, Inc. Rauschminderungssystem
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
AU598933B2 (en) * 1987-04-03 1990-07-05 American Telephone And Telegraph Company An adaptive threshold voiced detector
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4167229A1 (de) * 2021-10-18 2023-04-19 Audio Mobil Elektronik GmbH Audio-maskierung von sprechern
EP4167228A1 (de) * 2021-10-18 2023-04-19 Audio Mobil Elektronik GmbH Audio-maskierung von sprechern
WO2023066908A1 (de) * 2021-10-18 2023-04-27 Audio Mobil Elektronik Gmbh Audio-maskierung von sprache

Also Published As

Publication number Publication date
DE69130687D1 (de) 1999-02-11
EP0459384B1 (de) 1998-12-30
KR910020643A (ko) 1991-12-20
KR950013553B1 (ko) 1995-11-08
US5220610A (en) 1993-06-15
EP0459384A1 (de) 1991-12-04

Similar Documents

Publication Publication Date Title
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
DE112009000805B4 (de) Rauschreduktion
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE69420027T2 (de) Rauschverminderung
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE2719973C2 (de)
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE112012006876B4 (de) Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP3089481B1 (de) Verfahren zur frequenzabhängigen rauschunterdrückung eines eingangssignals
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE112017007005T5 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE69105154T2 (de) Sprachsignalverarbeitungsvorrichtung.
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE602005000897T2 (de) Eingangsschallprozessor
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
DE69425591T2 (de) Trainingsverfahren für einen Spracherkenner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee